Requisiti per il clustering gerarchico
Il clustering gerarchico può essere utilizzato con analogie arbitrarie e misure di dissomiglianza. (La maggior parte degli strumenti prevede una dissomiglianza, ma consentirà valori negativi: spetta a te garantire se saranno preferiti valori piccoli o grandi.).
Solo i metodi basati su centroidi o varianza (come il metodo di Ward) sono speciali e dovrebbero essere usati con euclidee quadrate. (Per capire perché, ti preghiamo di studiare attentamente questi collegamenti.)
Il collegamento singolo, il collegamento medio, il collegamento completo non sono molto interessati, sarà comunque il minimo / medio / massimo delle differenze di coppia.
Correlazione come misura della distanza
Se preprocedi i tuoi dati ( n osservazioni, caratteristiche p ) in modo tale che ogni caratteristica abbia μ=0 e σ=1 (che non consente funzioni costanti!), La correlazione si riduce al coseno:
Corr(X,Y)=Cov(X,Y)σXσY=E[(X−μX)(Y−μY)]σXσY=E[XY]=1n⟨X,Y⟩
Nelle stesse condizioni, la distanza euclidea al quadrato si riduce anche al coseno:
d2Euclid(X,Y)=∑(Xi−Yi)2=∑X2i+∑Y2i−2∑XiYi=2n−2⟨X,Y⟩=2n[1−Corr(X,Y)]
Pertanto, a meno che i dati non siano degenerati, l'utilizzo della correlazione per il clustering gerarchico dovrebbe essere corretto. Basta preelaborarlo come spiegato sopra, quindi utilizzare la distanza euclidea quadrata.