Vorrei confrontare 2 diversi classificatori per un problema di classificazione del testo multiclasse che utilizza grandi set di dati di allenamento. Dubito che dovrei usare le curve ROC o le curve di apprendimento per confrontare i 2 classificatori.
Da un lato, le curve di apprendimento sono utili per decidere la dimensione del set di dati di allenamento, poiché è possibile trovare la dimensione del set di dati in corrispondenza del quale il classificatore interrompe l'apprendimento (e forse si degrada). Quindi il miglior classificatore in questo caso potrebbe essere quello che raggiunge la massima precisione con la dimensione del set di dati più piccola.
D'altro canto, le curve ROC consentono di trovare un punto con il giusto compromesso tra sensibilità / specificità. Il miglior classificatore in questo caso è proprio quello più vicino alla parte in alto a sinistra, con il TPR più alto per qualsiasi FPR.
Dovrei usare entrambi i metodi di valutazione? È possibile che un metodo con una curva di apprendimento migliore abbia una curva ROC peggiore e viceversa?