Come interpretare il dendrogramma di un'analisi dei cluster gerarchici


25

Considera l'esempio R di seguito:

plot( hclust(dist(USArrests), "ave") )
  1. Cosa significa esattamente "Altezza" sull'asse y?

  2. Guardando la Carolina del Nord e la California (piuttosto a sinistra). La California è "più vicina" alla Carolina del Nord rispetto all'Arizona? Posso fare questa interpretazione?

  3. Hawaii (a destra) si unisce al cluster piuttosto tardi. Posso vederlo perché è "più alto" rispetto ad altri stati. In generale, come posso interpretare correttamente il fatto che le etichette siano "più alte" o "più basse" nel dendrogramma?

inserisci qui la descrizione dell'immagine


1
Risposte in ?hclust.
Scortchi - Ripristina Monica

3
Le posizioni delle etichette non hanno significato. Se non capisci l'asse y, allora è strano avere l'impressione di comprendere bene il clustering gerarchico.
Stéphane Laurent,

1
Si noti inoltre che il clustering gerarchico generalmente non fornisce una classificazione gerarchica (ad albero) . Il metodo medio (che hai usato) non lo fa, in particolare. Vedi l'ultimo punto qui .
ttnphns,

1
La posizione di un'etichetta ha tuttavia un piccolo significato. Maggiore è la posizione, più tardi l'oggetto si collega con gli altri, e quindi è più simile a un valore anomalo o vagante.
ttnphns,

3
@ StéphaneLaurent Hai ragione sul fatto che questo sembri una contraddizione. D'altro canto, penso ancora di essere in grado di intercettare un dendogramma di dati che conosco bene. Inoltre, la posizione dei lables ha un piccolo significato, come sottolinea ttnphns e Peter Flom. Finalmente il tuo commento non è stato costruttivo per me.
Ric

Risposte:


17

1) L'asse y è una misura della vicinanza di singoli punti dati o cluster.

2) California e Arizona sono ugualmente distanti dalla Florida perché CA e AZ si trovano in un cluster prima di entrare in FL.

3) Le Hawaii si uniscono piuttosto tardi; a circa 50. Ciò significa che il cluster a cui si unisce è più vicino prima che HI si unisca. Ma non molto più vicino. Si noti che il cluster a cui si unisce (quello completamente a destra) si forma solo a circa 45. Il fatto che HI si unisca a un cluster più tardi di qualsiasi altro stato significa semplicemente che (utilizzando qualsiasi metrica selezionata) HI non è così vicino a qualsiasi stato particolare.


Quindi "height" mi dà un'idea del valore del criterio di collegamento (come qui ) - nel mio caso la distanza media dei cluster l'uno rispetto all'altro. È giusto? Grazie!
Ric

L'asse y non è una misura della disomogeneità tra cluster e punti? Vale a dire la vicinanza negativa, perché è più grande quando le cose sono più diverse, non viceversa @PeterFlom
Felipe Almeida

21

Ho avuto le stesse domande quando ho provato ad imparare il clustering gerarchico e ho trovato molto utile il seguente pdf.

http://www.econ.upf.edu/~michael/stanford/maeb7.pdf

Anche se Richard è già chiaro sulla procedura, altri che sfogliano la domanda possono probabilmente usare il pdf, il suo esp molto semplice e chiaro per coloro che non hanno abbastanza conoscenze matematiche.


3
Voglio solo ripetere che il pdf collegato è molto buono.
Heisenberg,

Riferimento: Klimberg, Ronald K. e BD McCullough. 2013. "Capitolo 7: Analisi dei cluster gerarchici" in Fondamenti di analisi predittiva con JMP. Cary, NC: SAS Institute.
jay.sf,

1

L'asse orizzontale rappresenta i cluster. La scala verticale sul dendrogramma rappresenta la distanza o la dissomiglianza. Ogni unione (fusione) di due cluster è rappresentata sul diagramma dalla divisione di una linea verticale in due linee verticali. La posizione verticale della divisione, indicata da una barra corta, fornisce la distanza (dissomiglianza) tra i due cluster.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.