Confronto di dendrogrammi di clustering gerarchici ottenuti con distanze e metodi diversi


28

[Il titolo iniziale "Misurazione della somiglianza per gli alberi del cluster gerarchico" è stato successivamente modificato da @ttnphns per riflettere meglio l'argomento]

Sto eseguendo una serie di analisi di gruppi gerarchici su un frame di dati dei record dei pazienti (ad esempio simile a http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y )

Sto sperimentando misure di distanza diverse, pesi di parametri diversi e metodi gerarchici diversi , per comprendere il loro impatto sugli ammassi / struttura / vista finali dell'albero (dendrogramma). La mia domanda se esiste un calcolo / misura standard per calcolare la differenza tra i diversi alberi gerarchici e come implementarlo in R (ad esempio per quantificare che alcuni alberi sono quasi identici e che alcuni sono drasticamente diversi).

Risposte:


44

Per confrontare la somiglianza di due strutture gerarchiche (simili ad alberi), vengono utilizzate misure basate sull'idea di correlazione copenetica. Ma è corretto eseguire il confronto dei dendrogrammi per selezionare il metodo "giusto" o la misura della distanza nel clustering gerarchico?

Vi sono alcuni punti - ostacoli nascosti - relativi all'analisi dei cluster gerarchici che ritengo piuttosto importanti :

  • Non confrontare mai (per selezionare il metodo che dà una partizione più forte) i dendrogrammi ottenuti visivamente da diversi metodi di agglomerazione. Non dirà quale metodo sia "migliore" in questo. Ogni metodo ha il suo aspetto "prototipico": gli alberi differiranno in modo coerente anche quando i dati non hanno una struttura a cluster o hanno una struttura a cluster casuale. (E non credo che esista una standardizzazione o misura che toglierebbe queste differenze intrinseche.). Tuttavia, puoi confrontare l'aspetto del dendrogramma dei risultati prodotti con lo stesso metodo ma con dati diversi. Maxim: diretto, il confronto estetico dei dendrogrammi dopo diversi metodi è inaccettabile .
  • Non decidere il numero di grappoli (ovvero dove tagliare l'albero) guardando il dendrogramma del metodo Ward . In Ward, l'albero mostra la crescita del coefficiente di collisione sommativo e non medio; e la conseguenza è che, poiché i cluster successivi sono maggiori del numero di punti, i cluster successivi sembrano fuorvianti "migliori" sull'albero. Per standardizzare il dendrogramma di Ward in modo appropriato, dividere la crescita del coefficiente ad ogni passo per il numero complessivo di punti nei due gruppi che vengono combinati (tale dendrogramma di Ward standardizzato, tuttavia, può essere difficile da implementare graficamente). 1 Maxim: scegliere un livello di taglio contemplando un aspetto di un dendrogramma, sebbene possibile, non è il metodo migliore per selezionare la partizione e per alcuni metodi può essere fuorviante . Si consiglia invece di fare affidamento su alcuni criteri formali di cluster interno .
  • Anche se nessuno può proibirti di "sperimentare" con misure di distanza o metodi agglomerativi, è meglio selezionare la distanza e il metodo consapevolmente , non tentare ciecamente. La distanza dovrebbe riflettere gli aspetti della differenza a cui sei interessato e il metodo - uno deve essere consapevole - implica uno specifico archetipo di un cluster (es. La metafora di un cluster di Ward è, direi, tipo ; cluster dopo il collegamento completo sarebbe essere cerchio [per hobby o trama]; cluster dopo singolo collegamento sarebbe spettro [catena]; cluster dopo il metodo centroide sarebbe la vicinanza di piattaforme [politica]; un cluster di collegamento medio è concettualmente più indifferenziato e sarebbe generalmente classe unita ).
  • Alcuni metodi richiedono misure della giusta distanza e / o giusto tipo di dati. Il rione e il centroide, ad esempio, richiedono logicamente la distanza euclidea (quadrata), poiché questi metodi si impegnano nel calcolo dei centroidi nello spazio euclideo. E il calcolo dei centroidi geometrici è incongruo con, ad esempio, i dati binari; i dati dovrebbero essere in scala / continui. Maxim: ipotesi di dati / distanza / metodo e corrispondenza è una domanda molto importante e non così facile.
  • La preelaborazione (come centratura, ridimensionamento e altre forme di trasformazione di variabili / caratteristiche) prima del calcolo di una matrice di distanza e del raggruppamento è anch'essa una questione estremamente importante. Può influenzare notevolmente i risultati. Pensa a quale elaborazione preliminare può aiutarti e avrà senso dal punto di vista dell'interpretazione. Inoltre, non essere mai timido nel controllare attentamente i dati graficamente prima di tentare di eseguire l'analisi del cluster.
  • Non tutti i metodi di raggruppamento agglomerativo possono essere ugualmente visti come una classificazione gerarchica ... per motivi filosofici. Ad esempio, il metodo centroide dà gerarchia in un certo senso, perché il centro cluster è una caratteristica emergente e determinante di un cluster nel suo insieme e l'unione dei cluster è guidata da quella funzione. Il legame completo, d'altra parte, "elimina" entrambi i sotto-cluster quando li unisce - in virtù della distanza tra i singoli oggetti dei due. Pertanto, il dendrogramma del collegamento completo è semplicemente una storia di raccolta e non una sorta di tassonomia genitore-figlio .Maxim: l'analisi del cluster agglomerativo gerarchico, in genere, prevede che si crei una partizione in base al suo risultato, piuttosto che vederlo come una tassonomia gerarchica.
  • Il clustering gerarchico è un tipico algoritmo avido che fa la scelta migliore tra le alternative che appaiono su ogni passaggio nella speranza di avvicinarsi alla soluzione ottimale alla fine. Tuttavia, la scelta "migliore" che appare su un passaggio di alto livello è probabilmente più povera di quella teoricamente ottimale globale su quel passaggio. Maggiore è il passo, maggiore è la subottimalità, di regola. Dato che di solito vogliamo pochi cluster, gli ultimi passi sono importanti; e, come appena detto, si prevede che saranno relativamente scarsi se il numero dei passi è alto (diciamo, millesimo passo). Ecco perché il clustering gerarchico non è generalmente raccomandato per grandi campioni di oggetti (numerazione di migliaia di oggetti) anche se il programma è in grado di gestire una matrice di distanze così grandi.

Se dopo le precauzioni di cui sopra continui a pensare di voler ottenere una certa somiglianza tra le classificazioni gerarchiche, potresti cercare su Google "confronto di dendrogrammi" e "confronto di classificazioni gerarchiche". Quella più proponendosi idea può essere basato sulla correlazione cophenetic: avente due dendrogrammi per lo stesso insieme di dati di n oggetti, diciamo sia coefficiente di colligation (o forse il suo rango, il numero di passo) tra ogni coppia di oggetti ij in un dendrogramma e allo stesso modo sono uguali nell'altro dendrogramma. Calcola la correlazione o il coseno.XiojYioj


1 Aggiornamento successivo sul problema del dendrogramma del metodo di Wards . Diversi programmi di clustering possono generare coefficienti di aglomerazione trasformati in modo diverso per il metodo di Ward. Quindi i loro dendrogrammi avranno un aspetto un po 'diverso nonostante la storia del cluster e i risultati siano gli stessi . Ad esempio, SPSS non prende la radice dai coefficienti ultrametrici e li accumula nell'output. Un'altra tradizione (trovata in alcuni pacchetti R, ad esempio) è quella di prendere il root (il cosiddetto "Ward-2"implementazioni) e non cumulabili. Per ripetere ancora, tali differenze influiscono solo sulla forma / aspetto generale del dendrogramma, non sui risultati del raggruppamento. Ma l'aspetto del dendrogramma potrebbe influenzare la tua decisione sul numero di cluster. La morale è che sarebbe sicuro non fare affidamento sul dendrogramma nel metodo di Ward, a meno che tu non sappia esattamente quali sono questi coefficienti dal tuo programma e come interpretarli correttamente.


5
Posso seconde praticamente tutto questo. Due punti che voglio aggiungere: A) quello che sembra fare è una sorta di overfitting . Valutando sistematicamente misure, pesi e metodi, esiste un rischio elevato che i parametri con cui si finisce siano altamente specifici per i dati attuali e che possano essere inutili su altri dati o anche dati successivi. B) a che serve conoscere la somiglianza dei dendrogrammi. Considera cosa vuoi fare con loro in seguito, quindi prova a valutare il risultato finale. La valutazione dei risultati intermedi potrebbe essere fuorviante.
Anony-Mousse

1
Se sei ancora interessato all'argomento, ho pensato che potresti trovare utile la mia recente risposta su DS SE , soprattutto perché offre una copertura, seppur limitata, di approcci frequentisti e bayesiani a modelli gerarchici di attualità (con informazioni sulla classe incorporate) e selezionando misure di somiglianza .
Aleksandr Blekh,

@ttnphns, potresti spiegare in modo più dettagliato come utilizzare il "coefficiente di collisione" per confrontare due classificazioni gerarchiche?
Bassir,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.