Una distanza deve essere una "metrica" ​​affinché un cluster gerarchico sia valido su di esso?


9

Diciamo che definiamo una distanza, che non è una metrica , tra N elementi.

Sulla base di questa distanza utilizziamo quindi un cluster gerarchico agglomerativo .

È possibile utilizzare ciascuno degli algoritmi noti (collegamento singolo / massimo / avaerage, ecc.) Per ottenere risultati significativi? O in altre parole, qual è il problema con il loro utilizzo se la distanza non è una metrica?


Quali sono gli "articoli" nel tuo caso? (Sto chiedendo se ha qualcosa a che fare con la psicometria perché, in tal caso, consiglierei di dare un'occhiata al raggruppamento degli oggetti , o Revelle, W. Hierarchical cluster analysis e la struttura interna dei test , MBR (1979) 14 : 57.)
chl

Risposte:


7

I requisiti per le distanze dipendono dal metodo di raggruppamento gerarchico. I metodi singoli, completi e medi richiedono distanze non negative e simmetriche. I metodi di reparto, centroide e mediano necessitano di distanze (quadrate) euclidee (che sono persino più strette della metrica) per produrre risultati geometricamente significativi.

(Si può verificare se la sua matrice di distanza è euclidea centrandola doppiamente [vedi la mia risposta qui ] e osservando gli autovalori; se non vengono trovati autovalori negativi, le distanze convergono nello spazio euclideo.)


Grazie. Ulteriore domanda: la disuguaglianza del triangolo deve valere per metodi singoli, completi, medi? e se una certa distanza (ad esempio) non è simmetrica, quale problema pone a questi metodi? (Grazie!)
Tal Galili,

1
I classici metodi di raggruppamento gerarchico possono accettare nient'altro che una matrice simmetrica: una distanza da A a B = da B ad A. Esistono altri metodi speciali per gestire l'asimmetria (si può google). Per quanto riguarda la disuguaglianza triangolare - non è condizione necessaria per i metodi che menzioni. (Tuttavia, la saggezza comune pensa alla "distanza" come smth con la disuguaglianza, quindi vale la pena considerare di imporla se manca. Per farlo, aggiungi iterativamente una piccola costante alle distanze e controlla. E se continui ad aggiungere quando raggiungi poi arriverete presto a distanze euclidee)
ttnphns

5

No, la distanza non deve essere una metrica. Può, ad esempio, essere un ultrametrico:

d(A,B)max(d(A,C),d(B,C))

Le distanze ultrametriche ottenute da fasi successive dell'algoritmo di clustering possono essere rappresentate utilizzando i dendrogrammi, che è possibile aver visto in questo contesto.


Grazie Hong. Ricordo che i metodi per trasformare alcuni oggetti in hustust richiedono che il dendrogramma sia ultrametrico - mi ferisco se questo ha a che fare con ciò che hai scritto. In ogni caso, grazie per la risposta.
Tal Galili,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.