Indice Rand rettificato vs Informazioni reciproche adeguate


10

Sto cercando di valutare le prestazioni del clustering. Stavo leggendo la documentazione di skiscit-learn sulle metriche . Non capisco la differenza tra ARI e AMI. Mi sembra che facciano la stessa cosa in due modi diversi.

Citando dalla documentazione:

Data la conoscenza delle assegnazioni della classe di verità di base labels_true e delle assegnazioni del nostro algoritmo di clustering degli stessi campioni labels_pred, l' indice Rand rettificato è una funzione che misura la somiglianza dei due compiti, ignorando le permutazioni e con la normalizzazione casuale.

vs

Data la conoscenza delle assegnazioni della classe di verità di base labels_true e delle assegnazioni del nostro algoritmo di clustering degli stessi campioni labels_pred, le informazioni reciproche sono una funzione che misura l'accordo dei due compiti, ignorando le permutazioni ... L'AMI è stata proposta più di recente ed è normalizzata contro opportunità.

Dovrei usarli entrambi nella mia valutazione del clustering o questo sarebbe ridondante?


Il signor Rand non è casuale.
Ha QUIT - Anony-Mousse

Risposte:


2

Sono due su una dozzina che tutti cercano di confrontare i cluster.

Ma non sono equivalenti. Usano una teoria diversa.

A volte, l'ARI può preferire un risultato e l'AMI un altro. Ma spesso sono d'accordo nelle preferenze (non nei numeri).


Cosa intendi con: "sono d'accordo nelle preferenze (non nei numeri)?"
al27091

Quando si confrontano più risultati.
Ha QUIT - Anony-Mousse

10

La regola empirica è:

  • Utilizzare l' ARI quando il cluster di verità di base ha cluster di dimensioni uguali di grandi dimensioni
  • Usa AMI quando il clustering di verità di base è sbilanciato e esistono piccoli cluster

Ho lavorato su questo argomento. Riferimento: regolazione per misure comparative di clustering delle possibilità


Ho applicato HDBSCAN e KMeans su alcuni dei miei set di dati con il giusto numero di cluster per KMeans e la dimensione minima dei cluster corretta per HDBSCAN. Il mio problema è che una progressione in AMI non è correlata a una progressione in ARI. Ottengo una media di 0,3 e 0,35 in AMI che è bassa. Ottengo risultati ARI vicini a 0: 0,07 e 0,01 media rispettivamente. Anche nei casi in cui ho ottenuto una migliore AMI con HDBSCAN, i miei punteggi ARI erano molto vicini allo 0, cioè HDBSCAN produce ARI più bassi di KMean anche nei casi in cui l'AMI è più alta.
Ryuzakinho,

A quale tipo di risultati del clustering corrispondono 0,3 e 0,35 per AMI?
Simone,

1
pastebin.com/raw/WHvTxbLm Questo è uno dei casi che non capisco: migliore AMI non significa migliore ARI e viceversa. C'è qualche motivo per cui mi fiderei del relativo miglioramento dell'uno o dell'altro. Non sono sicuro di quale metrica guardare al fine di migliorare i miei risultati (dal documento che hai collegato, sento che dovrebbe essere AMI data la mia distribuzione di classe ma sono ancora confuso).
Ryuzakinho,

1
Nel tuo caso, il risultato di HDBSCAN mostra un cluster molto grande e molti piccoli che è per definizione una soluzione sbilanciata. Quindi AMI è più grande con DBSCAN. La tua verità fondamentale è più equilibrata di quella soluzione. Pertanto, vorrei utilizzare l'ARI per scegliere la soluzione qui. Detto questo, sembra che le soluzioni di clustering ottenute non siano così buone. Forse è perché hai molti cluster. Potresti ridurre il numero di cluster che desideri? O hai delle caratteristiche da prendere in considerazione piuttosto che usare un clustering basato esclusivamente sulla distanza?
Simone,

1
Dopo ulteriori test qualitativi, risulta che AMI era più affidabile per il mio caso d'uso. In effetti, AMI ha affermato che l'HDBSCAN era migliore e l'ho trovato davvero migliore. Sebbene avessi un grande cluster di rumore, gli altri cluster erano più puri dei cluster KMEANS.
Ryuzakinho,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.