k-medie è un metodo per partizionare i dati in cluster trovando un numero specificato di medie, k, st quando i dati sono assegnati ai cluster con la media più vicina, la somma dei quadrati con i cluster è ridotta al minimo
So che esiste un algoritmo di clustering di k-medie e k-mediana. Uno che utilizza la media come centro del cluster e l'altro utilizza la mediana. La mia domanda è: quando / dove usare quale?
So che k-medie è di solito ottimizzato usando l'ottimizzazione delle aspettative . Tuttavia, potremmo ottimizzare la sua funzione di perdita nello stesso modo in cui ne ottimizziamo tutti gli altri! Ho trovato alcuni documenti che usano effettivamente la pendenza stocastica del gradiente per k-medie su larga scala, ma non sono …
Ho studiato k-mean e questi sono ciò che ho ottenuto: k-mean è uno degli algoritmi più semplici che utilizza un metodo di apprendimento senza supervisione per risolvere i problemi noti del clustering. Funziona davvero bene con set di dati di grandi dimensioni. Tuttavia, ci sono anche degli svantaggi di K-Means …
Sembra che per K-medie e altri algoritmi correlati, il clustering si basa sul calcolo della distanza tra i punti. Ce n'è uno che funziona senza di essa?
La notifica dopo la tabella ANOVA dopo l'analisi dei mezzi K indica che i livelli di significatività non devono essere considerati come test di mezzi uguali, poiché la soluzione del cluster è stata derivata in base alla distanza euclidea per massimizzare la distanza. Quale test devo usare per mostrare se …
Ho due parti di un set di dati multidimensionale, chiamiamole trainetest . E voglio costruire un modello basato sul set di dati del treno e quindi convalidarlo sul set di dati di test. Il numero di cluster è noto. Ho provato ad applicare il clustering k-mean in R e ho …
Qualcuno può indicarmi un'implementazione di k-mean (sarebbe meglio se in MATLAB) che può prendere la matrice di distanza in input? L'implementazione di matlab standard richiede la matrice di osservazione in input e non è possibile modificare in modo personalizzato la misura della somiglianza.
Sto usando kkk significa raggruppare per raggruppare le voci dei relatori. Quando confronto un'enunciazione con i dati degli altoparlanti raggruppati ottengo una distorsione media (basata sulla distanza euclidea). Questa distanza può essere nell'intervallo di [0,∞][0,∞][0,\infty] . Voglio convertire questa distanza in un punteggio di somiglianza [0,1][0,1][0,1] . Per favore guidami …
Se ho un determinato set di dati, quanto sarebbe intelligente inizializzare i centri di cluster usando i campioni casuali di quel set di dati? Ad esempio, supponiamo che io voglia 5 clusters. Prendo 5 random samplesdi dire, size=20%del dataset originale. Potrei quindi prendere la media di ciascuno di questi 5 …
Attualmente sto provando a calcolare il BIC per il mio set di dati giocattolo (ofc iris (:). Voglio riprodurre i risultati come mostrato qui (Fig. 5). Quel documento è anche la mia fonte per le formule BIC. Ho 2 problemi con questo: Notazione: nionin_i = numero di elementi nel clusterioii …
Ho imparato che quando si sceglie un numero di cluster, si dovrebbe cercare un punto a gomito per diversi valori di K. Ho tracciato i valori di withinss per valori di k da 1 a 10, ma non vedo un chiaro gomito. Cosa fai in un caso come questo?
Sto correndo chilometri per identificare gruppi di clienti. Ho circa 100 variabili per identificare i cluster. Ognuna di queste variabili rappresenta la percentuale di spesa di un cliente in una categoria. Quindi, se ho 100 categorie, ho queste 100 variabili in modo tale che la somma di queste variabili sia …
Ho alcuni punti dati, ognuno contenente 5 vettori di risultati discreti agglomerati, i risultati di ogni vettore generati da una diversa distribuzione (il tipo specifico di cui non sono sicuro, la mia ipotesi migliore è Weibull, con parametri di forma che variano da qualche parte attorno all'esponenziale alla potenza legge …
Bahman Bahmani et al. introdotto k-mean ||, che è una versione più veloce di k-mean ++. Questo algoritmo è tratto da pagina 4 del loro articolo , Bahmani, B., Moseley, B., Vattani, A., Kumar, R., e Vassilvitskii, S. (2012). K-medie scalabili ++. Atti del VLDB Endowment , 5 (7), 622-633. …
Ho un set di dati molto grande e mancano circa il 5% di valori casuali. Queste variabili sono correlate tra loro. Il seguente set di dati R è solo un esempio di giocattolo con dati correlati fittizi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.