Sulla correlazione copenica per il clustering di dendrogrammi


10

Considera il contesto di un cluster di dendrogrammi. Chiamiamo differenze originali tra le distanze degli individui. Dopo aver costruito il dendrogramma definiamo la dissomiglianza cophenetic tra due individui come la distanza tra i cluster a cui questi individui appartengono.

Alcune persone ritengono che la correlazione tra le differenze originarie e le differenze copenetiche (chiamata correlazione copenica ) sia un "indice di idoneità" della classificazione. Questo mi sembra totalmente sconcertante. La mia obiezione non si basa sulla scelta particolare della correlazione di Pearson, ma sull'idea generale che qualsiasi legame tra le differenze originali e le differenze copenetiche potrebbe essere correlato all'idoneità della classificazione.

Sei d'accordo con me o potresti presentare qualche argomento a sostegno dell'uso della correlazione copenetica come indice di idoneità per la classificazione del dendrogramma?


Non spieghi la tua obiezione al (abbastanza intuitivo) general idea that any link between the original dissimilarities and the cophenetic dissimilarities could be related to the suitability of the classification. La classificazione dovrebbe riflettere le differenze originali. La caratteristica di base della classificazione dendrogrammica per farlo è attraverso la dissomiglianza cophenetica. C'è smth. sbagliato?
ttnphns,

1
A proposito, non si dovrebbe mescolare il concetto di raggruppamento gerarchico (agglometativo) con la classificazione gerarchica (dendrogrammica) . Il clustering produce il suo dendrogramma come report di processo ; non afferma di essere un risultato di classificazione gerarchica .
ttnphns,

1
La correlazione copenetica è stata proposta solo per classificazioni "dogmatiche" - in cui la classificazione dovrebbe riflettere le differenze di coppia, quindi la nozione di utilità della correlazione (copenetica) segue immotivamente.
ttnphns,

2
Potresti voler leggere questo articolo sulla correlazione
copenetica

3
@ StéphaneLaurent Non ho nulla per contribuire come risposta alla tua domanda, ma ho letto il dialogo. Nulla di quello che hai detto mi è sembrato offensivo. Inoltre hai detto di non conoscere la differenza tra classificazione e clustering e non ho visto la risposta a questa semplice domanda. È la differenza tra ciò che la gente dell'apprendimento automatico chiama apprendimento supervisionato e non supervisionato. Nella classificazione conosci tutte le etichette di classe per i tuoi dati e usi quelle informazioni per costruire una regola di classificazione per casi futuri che non hanno etichette. Nel cluster non hai etichette.
Michael R. Chernick,

Risposte:


2

... è un "indice di idoneità" della classificazione

Per me non è giusto chiarire cosa si intende con questo. Il modo in cui l'ho preso, è quello

la correlazione tra le differenze originali e le differenze copenetiche (chiamata correlazione copenetica)

è una misura della struttura gerarchica tra le osservazioni , cioè le loro distanze. Vale a dire che le differenze con le osservazioni in un cluster diverso sono preferibilmente simili. Considerando i set di dati A e B raggruppati usando la distanza euclidea e il collegamento completo ... inserisci qui la descrizione dell'immagine ... anche senza dare un'occhiata alla mappa della distanza cophenetica o alla correlazione cophenetic informatica, si può vedere che la correlazione cophenetic di A è superiore a quella di B In una gerarchia ci sono livelli. Quindi il CC dice se le distanze alle osservazioni sullo stesso livello (cluster) sono simili.

Per completezza: le correlazioni copenetiche sono CC (A) = 0.936 e CC (B) = 0.691


1
Vorrei essere più esperto in questo. Non seguo esattamente il tuo esempio con le mappe di calore. Cosa vedi che rende evidente il CC (A)> il CC (B)? Ad esempio, se i triangoli superiori fossero distanze copenetiche e i triangoli inferiori fossero distanze originali, ed entrambi mostrassero schemi simili, allora riconoscerei che il CC sarebbe alto, ecc. Non sono sicuro di come fare una tale inferenza . È solo che A darà origine a un migliore raggruppamento e quindi il CC risultante dovrà finire per abbinarsi bene?
gung - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.