Secondo me ci sono enormi differenze. L'indice Rand è fortemente influenzato dalla granularità dei cluster su cui opera. Di seguito userò la distanza Mirkin, che è una forma adattata dell'indice Rand (facile da vedere, ma vedi ad esempio Meila). Userò anche la distanza split / join, che è anche menzionata in alcuni articoli di Meila (disclaimer: la distanza split / join è stata proposta da me). Supponiamo un universo di cento elementi. Userò Top per indicare il clustering con un singolo cluster contenente tutti gli elementi, Bottom per indicare il clustering in cui tutti i nodi si trovano in set singleton separati, Sinistra per indicare il clustering {{1,2, .. 10}, {11, 12..20}, {21,22..30}, ..., {91,92, .. 100}} e Diritto di indicare il raggruppamento {{1,11, .. 91}, {2, 12, .. 92}, {3,13, .. 93}, ..., {10,20, .. 100}}.
A mio avviso, Bottom e Top sono cluster coerenti (nidificanti), mentre Sinistra e Destra sono cluster al massimo conflitto. Le distanze dalle metriche menzionate per questi due confronti a coppie sono le seguenti:
Top-Bottom Left-Right
Mirkin 9900 1800
VI 4.605 4.605
Split/join 99 180
Ne consegue che Mirkin / Rand considerano la coppia Top-Bottom coerente molto più lontana rispetto alla coppia sinistra-destra massimamente in conflitto. Questo è un esempio estremo per illustrare il punto, ma Mirkin / Rand sono in generale molto influenzati dalla granularità dei cluster su cui opera. Il motivo alla base di ciò è una relazione quadratica tra questa metrica e le dimensioni dei cluster, spiegata dal fatto che è coinvolto il conteggio delle coppie di nodi. In effetti, la distanza Mirkin è una distanza di Hamming tra gruppi di bordi di unioni di grafici completi indotti da raggruppamenti (questa è la risposta alla tua domanda, penso).
Per quanto riguarda le differenze tra Variation of Information e Split / Join, il primo è più sensibile a determinate situazioni di conflitto, come dimostrato da Meila. Cioè, Dividi / Unisci considera solo la migliore corrispondenza per ciascun cluster e ignora la frammentazione che potrebbe verificarsi sulla parte rimanente di quel cluster, mentre Variation of Information prenderà questo. Detto questo, Split / Join è facilmente interpretabile come il numero di nodi che devono essere spostati per ottenere un cluster dall'altro , e in tal senso il suo intervallo è più facilmente comprensibile; in pratica il problema della frammentazione potrebbe anche non essere così comune.
Ognuna di queste metriche può essere formata come la somma di due distanze, vale a dire le distanze da ciascuno dei due cluster al loro massimo sotto-cluster comune. Sento che è spesso utile lavorare con quelle parti separate piuttosto che solo la loro somma. La tabella sopra diventa quindi:
Top-Bottom Left-Right
Mirkin 0,9900 900,900
VI 0,4.605 2.303,2.303
Split/join 0,99 90,90
La relazione di sussunzione tra Alto e Basso diventa immediatamente chiara. È spesso molto utile sapere se due cluster sono coerenti (cioè uno è (quasi) un sotto-cluster dell'altro) come allentamento della domanda se siano vicini . Un clustering può essere abbastanza distante da un gold standard, ma essere coerente o quasi coerente. In tal caso, potrebbe non esserci motivo di ritenere il clustering negativo rispetto a quel gold standard. Naturalmente, i banali raggruppamenti Top and Bottom saranno coerenti con qualsiasi cluster, quindi questo deve essere preso in considerazione.
Infine, credo che metriche come Mirkin, Variation of Information e Split / Join siano gli strumenti naturali per confrontare i cluster. Per la maggior parte delle applicazioni, i metodi che cercano di incorporare l'indipendenza statistica e di correggere il caso sono eccessivamente inventati e offuscati piuttosto che chiarificatori.
Secondo esempio
Considera le seguenti coppie di cluster:
C1 = {{1, 2, 3, 4, 5, 6, 7, 8}, {9, 10, 11, 12, 13, 14, 15, 16}} con C2 = {{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}}
e
C3 = {{1, 2, 3, 4}, {5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}} con {{1, 2, 3 , 4}, {5, 6, 7, 8, 9, 10, 11, 12}, {13, 14, 15, 16}}
Qui C2 può essere formato da C1 spostando i nodi 9 e 10 e C3 può essere formato da C3 spostando i nodi 11 e 12. Entrambe le modifiche sono identiche ("sposta due nodi") tranne per il fatto che le dimensioni dei cluster coinvolti differiscono . La tabella delle metriche di clustering per questi due esempi è questa:
C1-C2 C3-C4
Mirkin 56 40
VI 0.594 0.520
Split/Join 4 4
Si può vedere che Mirkin / Rand e la variazione delle informazioni sono influenzati dalle dimensioni del cluster (e Mirkin in misura maggiore; questo sarà più pronunciato quando le dimensioni del cluster divergono), mentre la distanza Split / Join non è (il suo valore è 4 in quanto "sposta" i nodi da un cluster all'altro sempre tramite il più grande sotto-cluster comune). Questo può essere un tratto desiderabile a seconda delle circostanze. Vale la pena conoscere la semplice interpretazione di Split / Join (numero di nodi da spostare) e la sua indipendenza dalla dimensione del cluster. Tra Mirkin e Variation of Information penso che quest'ultimo sia molto preferibile.