Sto cercando di capire come calcolare l'indice Rand di un algoritmo di cluster, ma sono bloccato al punto come calcolare i veri e falsi negativi.
Al momento sto usando l'esempio del libro An Introduction in Information Retrieval (Manning, Raghavan & Schütze, 2009). A pagina 359 parlano di come calcolare l'indice Rand. Per questo esempio usano tre cluster e i cluster contengono i seguenti oggetti.
- aaaaab
- abbbbc
- aaccc
Sostituisco l'oggetto (segni originali in lettere, ma l'idea e il conteggio rimangono gli stessi). Fornirò le parole esatte del libro per vedere di cosa stanno parlando:
Per prima cosa calcoliamo TP + FP. I tre cluster contengono rispettivamente 6, 6 e 5 punti, quindi il numero totale di "positivi" o coppie di documenti che si trovano nello stesso cluster è:
TP + FP = + + = 15 + 15+ 10 = 40
Di questi, le coppie a nel cluster 1, le coppie b nel cluster 2, le coppie c nel cluster 3 e la coppia a nel cluster 3 sono veri positivi:
TP = + + + = 10 + 6 + 3 + 1 = 20
Pertanto, FP = 40 - 20 = 20.
Fin qui i calcoli sono chiari, e se prendo altri esempi ottengo gli stessi risultati, ma quando voglio calcolare il falso negativo e il vero negativo Manning et al. dichiarare quanto segue:
FN e TN sono calcolati in modo simile, risultando nella seguente tabella di contingenza:
La tabella di contingenza ha il seguente aspetto:
+--------+--------+
| TP: 20 | FN: 24 |
+--------+--------+
| FP: 20 | TN: 72 |
+--------+--------+
La frase: "FN e TN sono calcolati in modo simile" non è chiara alla mia e non capisco di quali numeri ho bisogno per calcolare TN e FN. Posso calcolare il lato destro della tabella procedendo come segue:
TP + FP + FN + TN = = = 136
Fonte: http://en.wikipedia.org/wiki/Rand_index
Quindi, FN + TN = 136 - TP + FP = 136 - 40 = 96, ma questo non aiuta davvero il mio a capire come calcolare le variabili separatamente. Soprattutto quando gli autori dicono: "FN e TN sono calcolati in modo simile". Non vedo come. Inoltre, quando guardo altri esempi, calcolano ogni cella della tabella di contingenza osservando ciascuna coppia.
Ad esempio: http://www.otlet-institute.org/wikics/Clustering_Problems.html#toc-Subsection-4.1
La mia prima domanda, basata sull'esempio di Manning et al (2009), è possibile calcolare TN e FN se si conoscono solo TP e NP? E se è così, come appare il calcolo simile basato sull'esempio dato?



