Statistiche e Big Data k-means

1

Differenza tra algoritmi k-medie standard e sferici

Vorrei capire qual è la principale differenza di implementazione tra algoritmi di clustering k-medie standard e sferici. In ogni passaggio, k-mean calcola le distanze tra i vettori degli elementi e i centroidi del cluster e riassegna il documento a questo cluster, il cui centroide è il più vicino. Quindi, tutti …

28 clustering data-mining algorithms k-means

2

Come utilizzare insieme variabili binarie e continue nel clustering?

Devo usare variabili binarie (valori 0 e 1) in k-medie. Ma k-mean funziona solo con variabili continue. So che alcune persone usano ancora queste variabili binarie in k-means ignorando il fatto che k-mean è progettato solo per variabili continue. Questo è inaccettabile per me. Domande: Quindi qual è il modo …

27 r clustering binary-data k-means mixed-type-data

5

Procedura di clustering in cui ciascun cluster ha un uguale numero di punti?

Ho alcuni punti in R p , e voglio raggruppare i punti in modo che:X={x1,...,xn}X={x1,...,xn}X=\{x_1,...,x_n\}RpRpR^p Ciascun cluster contiene un numero uguale di elementi di . (Supponiamo che il numero di cluster divida .)XXXnnn Ogni cluster è "spazialmente coeso" in un certo senso, come i cluster di medie.kkk È facile pensare …

25 machine-learning clustering k-means unsupervised-learning

3

Determinare diversi cluster di dati 1d dal database

Ho una tabella di database di trasferimenti di dati tra nodi diversi. Questo è un enorme database (con quasi 40 milioni di trasferimenti). Uno degli attributi è il numero di trasferimenti di byte (nbyte) che vanno da 0 byte a 2 tera byte. Vorrei raggruppare gli nbyte in modo tale …

24 clustering k-means

8

Esegui il clustering di K-medie (o dei suoi parenti stretti) con solo una matrice di distanza, non dati punto per caratteristica

Voglio eseguire il clustering dei mezzi K sugli oggetti che ho, ma gli oggetti non sono descritti come punti nello spazio, cioè per objects x featuresset di dati. Tuttavia, sono in grado di calcolare la distanza tra due oggetti qualsiasi (si basa su una funzione di somiglianza). Quindi, dispongo della …

22 machine-learning clustering data-mining k-means distance

2

Se il clustering k-mean è una forma di modellizzazione della miscela gaussiana, può essere usato quando i dati non sono normali?

Sto leggendo Bishop sull'algoritmo EM per GMM e la relazione tra GMM e k-mean. In questo libro si dice che k-mean è una versione difficile di GMM. Mi chiedo questo implica che se i dati che sto cercando di raggruppare non sono gaussiani, non posso usare k-mean (o almeno non …

21 clustering data-mining k-means gaussian-mixture

4

Clustering di una matrice di correlazione

Ho una matrice di correlazione che indica come ogni articolo è correlato all'altro articolo. Quindi per un N articoli, ho già una matrice di correlazione N * N. Usando questa matrice di correlazione come posso raggruppare gli oggetti N nei bin M in modo da poter dire che gli oggetti …

20 clustering python k-means

2

Prova di convergenza di k-medie

Per un incarico mi è stato chiesto di fornire una prova che k-mean converge in un numero finito di passaggi. Questo è quello che ho scritto: CCCE( C) = ∑Xmini = 1K∥ x - cio∥2E(C)=ΣXminio=1K‖X-cio‖2E(C)=\sum_{\mathbf{x}}\min_{i=1}^{k}\left\Vert \mathbf{x}-\mathbf{c}_{i}\right\Vert ^{2}E( C)E(C)E(C) Il passaggio 2 si riferisce al passaggio che etichetta ciascun punto dati …

20 mathematical-statistics k-means

4

Come comprendere gli svantaggi del clustering gerarchico?

Qualcuno può spiegare i pro ei contro del Clustering Gerarchico? Il Clustering Gerarchico presenta gli stessi inconvenienti di K? Quali sono i vantaggi del clustering gerarchico su K? Quando dovremmo usare K significa su Clustering gerarchico e viceversa? Le risposte a questo post spiegano molto bene gli svantaggi di k. …

19 clustering k-means unsupervised-learning hierarchical-clustering

3

Stima delle funzionalità più importanti in una partizione di cluster k-mean

Esiste un modo per determinare quali caratteristiche / variabili del set di dati sono le più importanti / dominanti all'interno di una soluzione cluster k-mean?

19 machine-learning clustering k-means importance

3

Perché la statistica gap per k-medie suggerisce un cluster, anche se ce ne sono ovviamente due?

Sto usando K-means per raggruppare i miei dati e stavo cercando un modo per suggerire un numero di cluster "ottimale". Le statistiche sui gap sembrano essere un modo comune per trovare un buon numero di cluster. Per qualche motivo restituisce 1 come numero di cluster ottimale, ma quando guardo i …

18 r machine-learning clustering k-means

3

Tracciare visivamente dati cluster multidimensionali

Ho un set di dati con 16 variabili e dopo aver raggruppato per kmean, desidero tracciare i due gruppi. Quali trame suggerisci di rappresentare visivamente i due cluster?

17 data-visualization clustering k-means

5

Perché k-mean non fornisce il minimo globale?

Ho letto che l'algoritmo k-mean converge solo in un minimo locale e non in un minimo globale. Perchè è questo? Posso logicamente pensare a come l'inizializzazione possa influenzare il clustering finale e c'è una possibilità di clustering non ottimale, ma non ho trovato nulla che lo dimostrasse matematicamente. Inoltre, perché …

17 clustering k-means convergence gradient-descent minimum

4

L'accuratezza della macchina con incremento gradiente diminuisce all'aumentare del numero di iterazioni

Sto sperimentando l'algoritmo della macchina per aumentare il gradiente tramite il caretpacchetto in R. Utilizzando un piccolo set di dati di ammissione al college, ho eseguito il seguente codice: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

1

La maledizione della dimensionalità influenza alcuni modelli più di altri?

I luoghi che ho letto sulla maledizione della dimensionalità lo spiegano congiuntamente a kNN e ai modelli lineari in generale. Vedo regolarmente i migliori ranghi di Kaggle usando migliaia di funzionalità nel set di dati che difficilmente ha 100.000 punti dati. Usano principalmente alberi potenziati e NN, tra gli altri. …

15 neural-networks svm k-means k-nearest-neighbour high-dimensional

Domande taggate «k-means»