Cosa fai quando non c'è un punto a gomito per il raggruppamento dei kmean


13

Ho imparato che quando si sceglie un numero di cluster, si dovrebbe cercare un punto a gomito per diversi valori di K. Ho tracciato i valori di withinss per valori di k da 1 a 10, ma non vedo un chiaro gomito. Cosa fai in un caso come questo?

KMeans fastidiosi


2
Esistono molti criteri di raggruppamento, la regola "SS elbow" è solo una e non la migliore. Prova altro. È altrettanto probabile che non ci siano cluster nei dati.
ttnphns,

@ttnphns Di che altro sei mistico parli? Come posso non avere cluster nei miei dati? Come lo so?
Glen,

Risposte:


7

Metodo sbagliato?

Forse stai usando l'algoritmo sbagliato per il tuo problema.

Preelaborazione errata?

K-means è altamente sensibile alla preelaborazione. Se un attributo è su una scala molto più grande degli altri, dominerà l'output. L'output sarà quindi effettivamente monodimensionale

Visualizza i risultati

Qualunque cosa tu faccia, devi convalidare i tuoi risultati con qualcosa di diverso da iniziare da un numero come SSQ. Invece, considera la visualizzazione .

La visualizzazione può anche dirti che forse c'è solo un singolo cluster nei tuoi dati.


Quali sono alcune buone opzioni di visualizzazione per dati multidimensionali?
Jeremy

1
Dipende dai tuoi dati. Alcuni dati possono essere proiettati bene, perché ha una dimensionalità intrinseca molto più bassa. Le serie temporali possono essere facilmente tracciate e se i tuoi dati sono un'immagine serializzata, visualizzali come immagini? In ogni caso, la visualizzazione dipende dai tuoi dati, non ci sarà mai una soluzione unica per tutti.
Ha QUIT - Anony-Mousse

3

Un modo è ispezionare manualmente i membri nei cluster per verificare se un gruppo specifico ha senso (sono distinguibili?). Questo può essere fatto tramite tabelle di contingenza e mezzi condizionali. Fallo per una varietà di k e puoi determinare quale valore è appropriato.

Un modo meno soggettivo è usare il valore Silhouette:

/programming/18285434/how-do-i-choose-k-when-using-k-means-clustering-with-silhouette-function

Questo può essere calcolato con il tuo pacchetto software preferito. Dal link:

Questo metodo confronta solo la somiglianza all'interno del gruppo con la somiglianza del gruppo più vicino. Se la distanza media di un membro di dati rispetto ad altri membri dello stesso cluster è superiore alla distanza media di altri membri del cluster, questo valore è negativo e il clustering non ha esito positivo. D'altra parte, i valori di silhuette vicini a 1 indicano un'operazione di clustering riuscita. 0,5 non è una misura esatta per il clustering.


Glen, personalmente penso che la tua risposta sia incompleta. Il primo paragrafo sembra poco chiaro. Che cos'è quel "controllo manuale", puoi descriverci la procedura per favore? Quindi, Silhouette è "meno soggettivo" di cosa ? E perché?
ttnphns,

@ttnphns risposta aggiornata.
Glen,

contingency tables and conditional meansQuesto è ulteriormente mistico. Cosa devo fare con loro per arrivare "soggettivamente" a un buon k?
ttnphns,

@ttnphns Se il poster ha una domanda a riguardo, lo seguirò. Come ho detto, dovresti verificare se i raggruppamenti sono distinguibili. Mi sembra chiaro.
Glen,

Quindi se ottengo bassi valori di silhouette (~ .35) potrebbe indicare che questi dati non hanno davvero buoni cluster?
Jeremy,

0
  • Nessun gomito per K-significa non significa che non ci sono cluster nei dati;
  • Nessun gomito significa che l'algoritmo utilizzato non può separare i cluster; (pensa a K-medie per cerchi concentrici, vs DBSCAN)

In generale, puoi considerare:

  • ottimizza il tuo algoritmo;
  • usa un altro algoritmo;
  • eseguire la preelaborazione dei dati.

-1

Possiamo usare il pacchetto NbClust per trovare il valore ottimale di k. Fornisce 30 indici per determinare il numero di cluster e propone il miglior risultato.

NbClust (data = df, distance = "euclidean", min.nc = 2, max.nc = 15, method = "kmeans", index = "all")


Benvenuti nel sito! Potresti espandere questa risposta? Sebbene utile, un po 'più di dettaglio lo renderebbe più utile.
mkt - Ripristina Monica il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.