Confronto tra clustering: indice di Rand e variazione delle informazioni


21

Mi chiedevo se qualcuno avesse qualche intuizione o intuizione dietro la differenza tra la Variazione delle Informazioni e l' Indice Rand per il confronto dei cluster.

Ho letto l'articolo " Comparing Clusterings - An Information Based Distance " di Marina Melia (Journal of Multivariate Analysis, 2007), ma, oltre a notare la differenza nelle definizioni, non capisco cos'è la variazione delle informazioni cattura che l'indice rand non acquisisce.

Risposte:


8

La differenza tra i due metodi è sottile. Il modo migliore per pensarci è considerare il reticolo definito dall'operazione di unione-divisione sui cluster. Entrambe queste misure possono essere ricostruite definendo una funzione su un cluster e quindi definendo la distanza tra due cluster dalla formula:f

dove C C è l'unione dei due raggruppamenti nel reticolo.

d(C,C')=f(C)+f(C')-2f(CC')
CC'

Ora lascia e lascia n i = | C i | . Impostazione F ( C ) = Σ n 2 i rendimenti dell'indice di rand, e l'impostazione F ( C ) = Σ n i accedo n i rendimenti VI.C={C1,C2,...,CK}nio=|Cio|f(C)=Σnio2f(C)=Σniolognio


Grazie Suresh! Sai se (e in che modo) la differenza in queste formule spiega perché l'indice di rand e la variazione delle informazioni penalizzano la coerenza (quanto uno dei cluster è un sotto-cluster dell'altro) tra i cluster in modo diverso? (secondo micans'answer)
Amelio Vazquez-Reina

2
Come sottolinea Micans, l'Indice Rand ha un comportamento quadratico, quindi è più sensibile alle variazioni di contenimento rispetto alla funzione entropia, che è vicino alla lineare.
Suresh Venkatasubramanian,

Scusate, ma non vedo ancora come il contenimento influenzi i termini quadratici più di altri tipi di discrepanze tra i cluster. Ti dispiacerebbe approfondire ulteriormente questo aspetto?
Amelio Vazquez-Reina

@ user023472 Ciao user023472. Sono interessato alle tue scoperte, sembra che tu abbia posto questa domanda qualche tempo fa. Hai imparato a cosa ammonta veramente la differenza tra i due metodi? Grazie.
Creatron,

14

Secondo me ci sono enormi differenze. L'indice Rand è fortemente influenzato dalla granularità dei cluster su cui opera. Di seguito userò la distanza Mirkin, che è una forma adattata dell'indice Rand (facile da vedere, ma vedi ad esempio Meila). Userò anche la distanza split / join, che è anche menzionata in alcuni articoli di Meila (disclaimer: la distanza split / join è stata proposta da me). Supponiamo un universo di cento elementi. Userò Top per indicare il clustering con un singolo cluster contenente tutti gli elementi, Bottom per indicare il clustering in cui tutti i nodi si trovano in set singleton separati, Sinistra per indicare il clustering {{1,2, .. 10}, {11, 12..20}, {21,22..30}, ..., {91,92, .. 100}} e Diritto di indicare il raggruppamento {{1,11, .. 91}, {2, 12, .. 92}, {3,13, .. 93}, ..., {10,20, .. 100}}.

A mio avviso, Bottom e Top sono cluster coerenti (nidificanti), mentre Sinistra e Destra sono cluster al massimo conflitto. Le distanze dalle metriche menzionate per questi due confronti a coppie sono le seguenti:

               Top-Bottom     Left-Right 

Mirkin            9900          1800
VI                4.605         4.605
Split/join        99            180

Ne consegue che Mirkin / Rand considerano la coppia Top-Bottom coerente molto più lontana rispetto alla coppia sinistra-destra massimamente in conflitto. Questo è un esempio estremo per illustrare il punto, ma Mirkin / Rand sono in generale molto influenzati dalla granularità dei cluster su cui opera. Il motivo alla base di ciò è una relazione quadratica tra questa metrica e le dimensioni dei cluster, spiegata dal fatto che è coinvolto il conteggio delle coppie di nodi. In effetti, la distanza Mirkin è una distanza di Hamming tra gruppi di bordi di unioni di grafici completi indotti da raggruppamenti (questa è la risposta alla tua domanda, penso).

Per quanto riguarda le differenze tra Variation of Information e Split / Join, il primo è più sensibile a determinate situazioni di conflitto, come dimostrato da Meila. Cioè, Dividi / Unisci considera solo la migliore corrispondenza per ciascun cluster e ignora la frammentazione che potrebbe verificarsi sulla parte rimanente di quel cluster, mentre Variation of Information prenderà questo. Detto questo, Split / Join è facilmente interpretabile come il numero di nodi che devono essere spostati per ottenere un cluster dall'altro , e in tal senso il suo intervallo è più facilmente comprensibile; in pratica il problema della frammentazione potrebbe anche non essere così comune.

Ognuna di queste metriche può essere formata come la somma di due distanze, vale a dire le distanze da ciascuno dei due cluster al loro massimo sotto-cluster comune. Sento che è spesso utile lavorare con quelle parti separate piuttosto che solo la loro somma. La tabella sopra diventa quindi:

               Top-Bottom     Left-Right 

Mirkin          0,9900          900,900
VI              0,4.605       2.303,2.303
Split/join      0,99             90,90

La relazione di sussunzione tra Alto e Basso diventa immediatamente chiara. È spesso molto utile sapere se due cluster sono coerenti (cioè uno è (quasi) un sotto-cluster dell'altro) come allentamento della domanda se siano vicini . Un clustering può essere abbastanza distante da un gold standard, ma essere coerente o quasi coerente. In tal caso, potrebbe non esserci motivo di ritenere il clustering negativo rispetto a quel gold standard. Naturalmente, i banali raggruppamenti Top and Bottom saranno coerenti con qualsiasi cluster, quindi questo deve essere preso in considerazione.

Infine, credo che metriche come Mirkin, Variation of Information e Split / Join siano gli strumenti naturali per confrontare i cluster. Per la maggior parte delle applicazioni, i metodi che cercano di incorporare l'indipendenza statistica e di correggere il caso sono eccessivamente inventati e offuscati piuttosto che chiarificatori.

Secondo esempio Considera le seguenti coppie di cluster: C1 = {{1, 2, 3, 4, 5, 6, 7, 8}, {9, 10, 11, 12, 13, 14, 15, 16}} con C2 = {{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}}

e C3 = {{1, 2, 3, 4}, {5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}} con {{1, 2, 3 , 4}, {5, 6, 7, 8, 9, 10, 11, 12}, {13, 14, 15, 16}}

Qui C2 può essere formato da C1 spostando i nodi 9 e 10 e C3 può essere formato da C3 spostando i nodi 11 e 12. Entrambe le modifiche sono identiche ("sposta due nodi") tranne per il fatto che le dimensioni dei cluster coinvolti differiscono . La tabella delle metriche di clustering per questi due esempi è questa:

            C1-C2         C3-C4

Mirkin       56            40 
VI            0.594         0.520
Split/Join    4             4

Si può vedere che Mirkin / Rand e la variazione delle informazioni sono influenzati dalle dimensioni del cluster (e Mirkin in misura maggiore; questo sarà più pronunciato quando le dimensioni del cluster divergono), mentre la distanza Split / Join non è (il suo valore è 4 in quanto "sposta" i nodi da un cluster all'altro sempre tramite il più grande sotto-cluster comune). Questo può essere un tratto desiderabile a seconda delle circostanze. Vale la pena conoscere la semplice interpretazione di Split / Join (numero di nodi da spostare) e la sua indipendenza dalla dimensione del cluster. Tra Mirkin e Variation of Information penso che quest'ultimo sia molto preferibile.


Grazie micani, questo è molto perspicace. Non sono sicuro di aver capito il secondo tavolo. Perché ci sono due numeri separati da una virgola per ogni voce nella tabella? Inoltre, sai in che modo questo argomento si riferisce a @Suresh's?
Amelio Vazquez-Reina

1
Se A e B sono cluster, allora d (A, B) può essere suddiviso come d (A, B) = d (A, X) + d (B, X) dove X è il cluster più grande che è un sotto-cluster di tutti e due. Nella notazione di Suresh abbiamo che d (A, B) = f (A) + f (B) -2f (X). Questo può essere riscritto come f (A) + f (X) -2f (X) + f (B) + f (X) -2f (X) = d (A, X) + d (B, X). Sopra ho scritto i due componenti d (A, X) e d (B, X) separati da virgole. La più grande differenza tra i due è di gran lunga le caratteristiche quadratiche di Mirkin / Rand. Se guardi gli esempi Top / Bottom e Left / Right, la distanza Top-Bottom è enorme; questo è interamente dovuto alle dimensioni di Top.
Micans,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.