Utilizzo della correlazione come metrica della distanza (per il clustering gerarchico)


22

Vorrei raggruppare gerarchicamente i miei dati, ma piuttosto che usare la distanza euclidea, vorrei usare la correlazione. Inoltre, poiché il coefficiente di correlazione varia da -1 a 1, con -1 e 1 che indicano "coregolamentazione" nel mio studio, sto trattando sia -1 che 1 come d = 0. Quindi il mio calcolo è d = 1 - | r | d=1|r|

Ho letto in una domanda separata (per quanto riguarda il clustering k-mean), che dovresti convertire r in vero euclideo d usando il teorema del coseno: d=2(1r)

Qual è il modo più preciso per convertire la correlazione in distanza per il clustering gerarchico?


3
Sì, uno dei possibili - e geometricamente vero modo - è l'ultima formula. Ma potresti ignorare il segno di se ha senso per te, quindi d 2 = 2 ( 1 - | r | ) . Nella maggior parte dei casi è possibile rilasciare 2 in modo sicuro senza influire sui risultati del clustering. La distanza può essere trattata come euclidea quadrata . In questa discussione è stato discusso se le misure di correlazione convertite in distanza sono distanze metriche. rd2=2(1|r|)2
ttnphns,

2
Inoltre, non è necessario convertire sempre in una dissomiglianza lineare come la distanza euclidea. Non di rado le persone fanno il clustering basato direttamente su r o | r | come sulla somiglianza; è somiglianza angolarerr|r|
ttnphns il

Risposte:


21

Requisiti per il clustering gerarchico

Il clustering gerarchico può essere utilizzato con analogie arbitrarie e misure di dissomiglianza. (La maggior parte degli strumenti prevede una dissomiglianza, ma consentirà valori negativi: spetta a te garantire se saranno preferiti valori piccoli o grandi.).

Solo i metodi basati su centroidi o varianza (come il metodo di Ward) sono speciali e dovrebbero essere usati con euclidee quadrate. (Per capire perché, ti preghiamo di studiare attentamente questi collegamenti.)

Il collegamento singolo, il collegamento medio, il collegamento completo non sono molto interessati, sarà comunque il minimo / medio / massimo delle differenze di coppia.

Correlazione come misura della distanza

Se preprocedi i tuoi dati ( n osservazioni, caratteristiche p ) in modo tale che ogni caratteristica abbia μ=0 e σ=1 (che non consente funzioni costanti!), La correlazione si riduce al coseno:

Corr(X,Y)=Cov(X,Y)σXσY=E[(XμX)(YμY)]σXσY=E[XY]=1nX,Y

Nelle stesse condizioni, la distanza euclidea al quadrato si riduce anche al coseno:

dEuclid2(X,Y)=(XiYi)2=Xi2+Yi22XiYi=2n2X,Y=2n[1Corr(X,Y)]

Pertanto, a meno che i dati non siano degenerati, l'utilizzo della correlazione per il clustering gerarchico dovrebbe essere corretto. Basta preelaborarlo come spiegato sopra, quindi utilizzare la distanza euclidea quadrata.


1
Only ward's method is special, and should be used with squared Euclidean. Non solo di Ward. Qualsiasi metodo per calcolare i centroidi o le deviazioni dai centroidi richiederà una distanza euclidea o quadrata euclidea (a seconda dell'implementazione), per motivi di precisione geometrica. Con la perdita di tale e il dovuto avviso, potrebbero essere utilizzati con altre distanze metriche. Questi metodi sono centroide, "mediano", di Ward, varianza (da non confondere con Ward!) E altri.
ttnphns

Grazie, l'ho reso più chiaro. Non ero a conoscenza di queste variazioni, pensavo solo a singolo / medio / completo / reparto.
Anony-Mousse

1
,dim
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.