Misurazione delle prestazioni di diversi classificatori con diverse dimensioni del campione


12

Attualmente sto usando diversi classificatori diversi su varie entità estratte dal testo, e uso la precisione / richiamo come un riepilogo di come ciascun classificatore separato si comporta in un determinato set di dati.

Mi chiedo se esiste un modo significativo per confrontare le prestazioni di questi classificatori in modo simile, ma che tiene conto anche del numero totale di ciascuna entità nei dati di test che vengono classificati?

Attualmente sto usando la precisione / richiamo come misura delle prestazioni, quindi potrebbe avere qualcosa del tipo:

                    Precision Recall
Person classifier   65%       40%
Company classifier  98%       90%
Cheese classifier   10%       50%
Egg classifier      100%      100%

Tuttavia, il set di dati su cui sto eseguendo potrebbe contenere 100.000 persone, 5.000 aziende, 500 formaggi e 1 uovo.

Quindi c'è una statistica riassuntiva che posso aggiungere alla tabella sopra che tiene conto anche del numero totale di ciascun articolo? Oppure esiste un modo per misurare il fatto che, ad esempio, il prec / rec al 100% sul classificatore di uova potrebbe non essere significativo con 1 solo elemento di dati?

Diciamo che abbiamo avuto centinaia di tali classificatori, immagino che sto cercando un buon modo per rispondere a domande come "Quali classificatori sono sottoperformanti? Quali classificatori mancano di dati di test sufficienti per dire se sono sottoperformanti?".


Se si dispone di diversi classificatori formati su set di dati diversi, come è possibile confrontarli in modo significativo? Mi vengono in mente mele e arance, gesso e formaggio. Inoltre, se si dispone di classificatori multiclasse, come si calcola la precisione e il richiamo? Anche sapere N = 1 non è necessariamente utile - se c'è solo un uovo al mondo, il tuo classificatore di uova va bene.
Bull,

Sono diversi classificatori addestrati sugli stessi set di dati, ad esempio sappiamo che abbiamo un documento che tratta di mele e arance, quindi eseguiamo un classificatore di mele su di esso per determinare il tipo di mela di cui sta parlando e un classificatore di arance per determinare il tipo di arancia parla di. Se i nostri documenti riguardano il 99% delle mele, l'1% delle arance ed entrambi i classificatori hanno lo stesso prec / rec (sommando righe / colonne sulla matrice di confusione), ci sono informazioni che possiamo presentare che tengono conto delle differenze nelle quantità di ciascuna ? (potrebbe essere che no, non c'è, che è una risposta di cui sarei felice)
Dave Challis,

Risposte:


5

Devi guardare l'intervallo di confidenza della statistica. Questo aiuta a misurare quanta incertezza nella statistica, che è in gran parte una funzione della dimensione del campione.


2

Secondo me, è difficile confrontare le prestazioni quando c'è una differenza di dimensioni così grande. Su questo link, (controlla qui su Wikipedia http://en.wikipedia.org/wiki/Effect_size ), potresti vedere diverse strategie.

Quello che suggerisco è quello relativo alla varianza. Ad esempio, considerare le prestazioni del classificatore (100%) e del classificatore persona (65%). L'errore minimo commesso con l'ex classificatore è del 100%. Tuttavia, l'errore minimo che è possibile commettere con quest'ultimo classificatore è 10e-5.

Quindi un modo per confrontare il classificatore è quello di tenere a mente questa Regola dei Tre ( http://en.wikipedia.org/wiki/Rule_of_three_(statistics) in cui è possibile confrontare le prestazioni e la sua variabilità.

Un'altra possibilità è la misura F che è una combinazione di precisione e richiamo ed è in qualche modo indipendente dalla dimensione dell'effetto.


2

Il numero di dati nella classe viene talvolta definito come supportil classificatore. Indica quanto puoi fidarti del tuo risultato, come un valore p ti permetterebbe di fidarti o di non fidarti di qualche test.

Un approccio che è possibile utilizzare è calcolare diverse misure delle prestazioni del classificatore, non solo precisione e richiamo, ma anche tasso positivo vero, tasso falso positivo, specificità, sensibilità, probabilità positiva, probabilità negativa, ecc. E vedere se sono coerenti tra loro . Se una delle misure raggiunge il massimo (100%) e l'altra no, spesso, nella mia esperienza, è indicativo di qualcosa che non ha funzionato (ad esempio scarso supporto, classificatore banale, classificatore parziale, ecc.). Vedere questo per un elenco di misure delle prestazioni del classificatore.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.