Valutazione dei classificatori: curve di apprendimento vs curve ROC

Vorrei confrontare 2 diversi classificatori per un problema di classificazione del testo multiclasse che utilizza grandi set di dati di allenamento. Dubito che dovrei usare le curve ROC o le curve di apprendimento per confrontare i 2 classificatori.

Da un lato, le curve di apprendimento sono utili per decidere la dimensione del set di dati di allenamento, poiché è possibile trovare la dimensione del set di dati in corrispondenza del quale il classificatore interrompe l'apprendimento (e forse si degrada). Quindi il miglior classificatore in questo caso potrebbe essere quello che raggiunge la massima precisione con la dimensione del set di dati più piccola.

D'altro canto, le curve ROC consentono di trovare un punto con il giusto compromesso tra sensibilità / specificità. Il miglior classificatore in questo caso è proprio quello più vicino alla parte in alto a sinistra, con il TPR più alto per qualsiasi FPR.

Dovrei usare entrambi i metodi di valutazione? È possibile che un metodo con una curva di apprendimento migliore abbia una curva ROC peggiore e viceversa?

— kanzen_master
fonte

Hai un esempio di classificatore in cui le prestazioni diminuiscono quando il set di allenamento diventa più grande?

— Mogron,

La curva di apprendimento è solo uno strumento diagnostico che ti dice quanto velocemente apprende il tuo modello e se tutta la tua analisi non è bloccata in un'area bizzarra di insiemi troppo piccoli / insieme troppo piccolo (se applicabile). L'unica parte di questo diagramma che è interessante per la valutazione del modello è la fine, cioè la prestazione finale - ma questo non ha bisogno di un diagramma per essere segnalato.
Selezionare un modello in base a una curva di apprendimento come è stato delineato nella domanda è piuttosto una cattiva idea, perché è probabile che tu scelga un modello che è il più adatto a sovralimentare su un set di campioni troppo piccolo.

Informazioni sui ROC ... La curva ROC è un metodo per valutare i modelli binari che producono un punteggio di confidenza che un oggetto appartiene a una classe; possibilmente anche per trovare le migliori soglie per convertirle in un vero classificatore.
Quello che descrivi è piuttosto un'idea per tracciare le prestazioni dei tuoi classificatori come un diagramma a dispersione di TPR / FPR nello spazio ROC e usare il criterio più vicino all'angolo in alto a sinistra per selezionare questo che è meglio bilanciato tra la generazione di falsi allarmi e mancanze - - questo particolare obiettivo può essere raggiunto in modo più elegante semplicemente selezionando il modello con il miglior punteggio F (media armonica di precisione e richiamo).