Qual è un valore accettabile del criterio di Calinski & Harabasz (CH)?


25

Ho fatto un'analisi dei dati cercando di raggruppare i dati longitudinali usando R e il pacchetto kml . I miei dati contengono circa 400 traiettorie individuali (come viene chiamato nel documento). Puoi vedere i miei risultati nella seguente immagine:

inserisci qui la descrizione dell'immagine

Dopo aver letto il capitolo 2.2 "Scelta di un numero ottimale di cluster" nel documento corrispondente non ho ricevuto alcuna risposta. Preferirei avere 3 cluster, ma il risultato sarà ancora OK con un CH di 80. In realtà non so nemmeno quale sia il valore CH.

Quindi la mia domanda, qual è un valore accettabile del criterio di Calinski & Harabasz (CH)?


le immagini della tua soluzione cluster provengono da SPSS? è possibile contare questo criterio CH in SPSS? Grazie! :) b
berbelein,

Benvenuto nel sito, @berbelein. Questa non è una risposta alla domanda del PO. Utilizza solo il campo "La tua risposta" per fornire risposte. Se hai una tua domanda, fai clic su [ASK QUESTION]Poni lì, quindi possiamo aiutarti correttamente. Dato che sei nuovo qui, potresti voler partecipare al nostro tour , che contiene informazioni per i nuovi utenti.
gung - Ripristina Monica

@berbelein le immagini sono di R.
greg121,

Risposte:


40

Ci sono alcune cose di cui dovresti essere consapevole.

  • Come la maggior parte dei criteri di clustering interno , Calinski-Harabasz è un dispositivo euristico. Il modo corretto di usarlo è confrontare le soluzioni di clustering ottenute sugli stessi dati, - soluzioni che differiscono per il numero di cluster o per il metodo di clustering utilizzato.

  • Non esiste un valore di interruzione "accettabile". È sufficiente confrontare i valori CH per occhio. Maggiore è il valore, "migliore" è la soluzione. Se sul diagramma lineare dei valori CH appare che una soluzione fornisce un picco o almeno un gomito improvviso, sceglierlo. Se, al contrario, la linea è liscia - orizzontale o crescente o decrescente - non c'è motivo di preferire una soluzione ad altre.

  • Il criterio CH si basa sull'ideologia ANOVA. Quindi, implica che gli oggetti raggruppati si trovano nello spazio euclideo di variabili di scala (non ordinali o binarie o nominali). Se i dati raggruppati non fossero variabili X degli oggetti ma una matrice di differenze tra gli oggetti, allora la misura della dissomiglianza dovrebbe essere (quadrata) di distanza euclidea (o, peggio, altra distanza metrica che si avvicina alla distanza euclidea dalle proprietà).

  • 1

Osserviamo un esempio. Di seguito è riportato un grafico a dispersione di dati che sono stati generati come 5 cluster normalmente distribuiti che si trovano abbastanza vicini l'uno all'altro.

inserisci qui la descrizione dell'immagine

Questi dati sono stati raggruppati secondo il metodo gerarchico di collegamento medio e sono state salvate tutte le soluzioni di cluster (appartenenze a cluster) da 15 cluster a 2 cluster. Quindi sono stati applicati due criteri di clustering per confrontare le soluzioni e selezionare quella "migliore", se presente.

inserisci qui la descrizione dell'immagine

La trama per Calinski-Harabasz è sulla sinistra. Vediamo che - in questo esempio - CH indica chiaramente la soluzione a 5 cluster (etichettata CLU5_1) come la migliore. Trama per un altro criterio di raggruppamento, C-Index (che non si basa sull'ideologia ANOVA ed è più universale nella sua applicazione di CH) è sulla destra. Per C-Index, un valore inferiore indica una soluzione "migliore". Come mostra la trama, la soluzione a 15 cluster è formalmente la migliore. Ma ricorda che con criteri di clustering la topografia robusta è più importante nella decisione della grandezza stessa. Nota che c'è il gomito nella soluzione a 5 cluster; La soluzione a 5 cluster è ancora relativamente buona, mentre le soluzioni a 4 o 3 cluster si deteriorano a passi da gigante. Dato che di solito desideriamo ottenere "una soluzione migliore con meno cluster", la scelta della soluzione a 5 cluster sembra essere ragionevole anche sotto il test C-Index.

PS Questo post solleva anche la questione se dovremmo fidarci più del massimo effettivo (o minimo) di un criterio di raggruppamento o piuttosto di un panorama della trama dei suoi valori.


1 Nota successiva . Non proprio come scritto. Le mie analisi su set di dati simulati mi convincono che CH non ha alcuna preferenza per la distribuzione della forma a campana su quella platicattica (come in una palla) o per i cluster circolari su quelli ellissoidali, se mantiene le varianze globali intracluster e la separazione centroide tra cluster. Una sfumatura da tenere a mente, tuttavia, è che se i cluster sono necessari (come al solito) per non sovrapporsi nello spazio, una buona configurazione del cluster con cluster rotondi è semplicemente più facile da incontrare nella pratica reale come una configurazione altrettanto buona con cluster oblunghi ( effetto "matite in una custodia"); ciò non ha nulla a che fare con i pregiudizi di un criterio di raggruppamento.

Una panoramica dei criteri di clustering interno e come usarli .


Un lettore potrebbe voler vedere anche la domanda stats.stackexchange.com/q/242360/3277 .
ttnphns,

Ho implementato per SPSS una serie di criteri di convalida del cluster più popolari, - visitare la mia pagina Web, raccolta "Criteri di clustering".
ttnphns,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.