Attualmente sto usando diversi classificatori diversi su varie entità estratte dal testo, e uso la precisione / richiamo come un riepilogo di come ciascun classificatore separato si comporta in un determinato set di dati.
Mi chiedo se esiste un modo significativo per confrontare le prestazioni di questi classificatori in modo simile, ma che tiene conto anche del numero totale di ciascuna entità nei dati di test che vengono classificati?
Attualmente sto usando la precisione / richiamo come misura delle prestazioni, quindi potrebbe avere qualcosa del tipo:
Precision Recall
Person classifier 65% 40%
Company classifier 98% 90%
Cheese classifier 10% 50%
Egg classifier 100% 100%
Tuttavia, il set di dati su cui sto eseguendo potrebbe contenere 100.000 persone, 5.000 aziende, 500 formaggi e 1 uovo.
Quindi c'è una statistica riassuntiva che posso aggiungere alla tabella sopra che tiene conto anche del numero totale di ciascun articolo? Oppure esiste un modo per misurare il fatto che, ad esempio, il prec / rec al 100% sul classificatore di uova potrebbe non essere significativo con 1 solo elemento di dati?
Diciamo che abbiamo avuto centinaia di tali classificatori, immagino che sto cercando un buon modo per rispondere a domande come "Quali classificatori sono sottoperformanti? Quali classificatori mancano di dati di test sufficienti per dire se sono sottoperformanti?".