Statistiche e Big Data k-means

2

So che esiste un algoritmo di clustering di k-medie e k-mediana. Uno che utilizza la media come centro del cluster e l'altro utilizza la mediana. La mia domanda è: quando / dove usare quale?

14 clustering k-means

2

Perché k-mean non è ottimizzato usando la discesa gradiente?

So che k-medie è di solito ottimizzato usando l'ottimizzazione delle aspettative . Tuttavia, potremmo ottimizzare la sua funzione di perdita nello stesso modo in cui ne ottimizziamo tutti gli altri! Ho trovato alcuni documenti che usano effettivamente la pendenza stocastica del gradiente per k-medie su larga scala, ma non sono …

14 optimization k-means expectation-maximization loss-functions

3

Perché usiamo k-mean invece di altri algoritmi?

Ho studiato k-mean e questi sono ciò che ho ottenuto: k-mean è uno degli algoritmi più semplici che utilizza un metodo di apprendimento senza supervisione per risolvere i problemi noti del clustering. Funziona davvero bene con set di dati di grandi dimensioni. Tuttavia, ci sono anche degli svantaggi di K-Means …

14 clustering data-mining algorithms k-means

4

Esistono algoritmi di clustering non basati sulla distanza?

Sembra che per K-medie e altri algoritmi correlati, il clustering si basa sul calcolo della distanza tra i punti. Ce n'è uno che funziona senza di essa?

14 machine-learning clustering data-mining k-means

3

Adeguatezza di ANOVA dopo l'analisi dei cluster di k-medie

La notifica dopo la tabella ANOVA dopo l'analisi dei mezzi K indica che i livelli di significatività non devono essere considerati come test di mezzi uguali, poiché la soluzione del cluster è stata derivata in base alla distanza euclidea per massimizzare la distanza. Quale test devo usare per mostrare se …

14 anova k-means

2

Esiste una funzione in R che prende i centri dei cluster che sono stati trovati e assegna i cluster a un nuovo set di dati

Ho due parti di un set di dati multidimensionale, chiamiamole trainetest . E voglio costruire un modello basato sul set di dati del treno e quindi convalidarlo sul set di dati di test. Il numero di cluster è noto. Ho provato ad applicare il clustering k-mean in R e ho …

14 r clustering k-means

4

k-significa implementazione con matrice di distanza personalizzata in input

Qualcuno può indicarmi un'implementazione di k-mean (sarebbe meglio se in MATLAB) che può prendere la matrice di distanza in input? L'implementazione di matlab standard richiede la matrice di osservazione in input e non è possibile modificare in modo personalizzato la misura della somiglianza.

14 clustering matlab k-means

5

Come posso convertire la distanza (euclidea) in punteggio di somiglianza

Sto usando kkk significa raggruppare per raggruppare le voci dei relatori. Quando confronto un'enunciazione con i dati degli altoparlanti raggruppati ottengo una distorsione media (basata sulla distanza euclidea). Questa distanza può essere nell'intervallo di [0,∞][0,∞][0,\infty] . Voglio convertire questa distanza in un punteggio di somiglianza [0,1][0,1][0,1] . Per favore guidami …

13 clustering k-means distance euclidean

4

Inizializzazione di centri K-media mediante sottocampioni casuali del set di dati?

Se ho un determinato set di dati, quanto sarebbe intelligente inizializzare i centri di cluster usando i campioni casuali di quel set di dati? Ad esempio, supponiamo che io voglia 5 clusters. Prendo 5 random samplesdi dire, size=20%del dataset originale. Potrei quindi prendere la media di ciascuno di questi 5 …

13 clustering k-means unsupervised-learning

2

Utilizzo di BIC per stimare il numero di k in KMEANS

Attualmente sto provando a calcolare il BIC per il mio set di dati giocattolo (ofc iris (:). Voglio riprodurre i risultati come mostrato qui (Fig. 5). Quel documento è anche la mia fonte per le formule BIC. Ho 2 problemi con questo: Notazione: nionin_i = numero di elementi nel clusterioii …

13 python k-means scikit-learn bic

4

Cosa fai quando non c'è un punto a gomito per il raggruppamento dei kmean

Ho imparato che quando si sceglie un numero di cluster, si dovrebbe cercare un punto a gomito per diversi valori di K. Ho tracciato i valori di withinss per valori di k da 1 a 10, ma non vedo un chiaro gomito. Cosa fai in un caso come questo?

13 clustering k-means

3

Devo eliminare le variabili correlate / collineari prima di eseguire i kmean?

Sto correndo chilometri per identificare gruppi di clienti. Ho circa 100 variabili per identificare i cluster. Ognuna di queste variabili rappresenta la percentuale di spesa di un cliente in una categoria. Quindi, se ho 100 categorie, ho queste 100 variabili in modo tale che la somma di queste variabili sia …

13 clustering data-mining k-means multicollinearity compositional-data

3

Clustering distribuzioni di probabilità - metodi e metriche?

Ho alcuni punti dati, ognuno contenente 5 vettori di risultati discreti agglomerati, i risultati di ogni vettore generati da una diversa distribuzione (il tipo specifico di cui non sono sicuro, la mia ipotesi migliore è Weibull, con parametri di forma che variano da qualche parte attorno all'esponenziale alla potenza legge …

13 distributions clustering feature-selection kolmogorov-smirnov k-means

1

k-means || alias K-Means scalabili ++

Bahman Bahmani et al. introdotto k-mean ||, che è una versione più veloce di k-mean ++. Questo algoritmo è tratto da pagina 4 del loro articolo , Bahmani, B., Moseley, B., Vattani, A., Kumar, R., e Vassilvitskii, S. (2012). K-medie scalabili ++. Atti del VLDB Endowment , 5 (7), 622-633. …

12 clustering k-means

5

Come eseguire l'imputazione dei valori in un numero molto elevato di punti dati?

Ho un set di dati molto grande e mancano circa il 5% di valori casuali. Queste variabili sono correlate tra loro. Il seguente set di dati R è solo un esempio di giocattolo con dati correlati fittizi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

Domande taggate «k-means»