Curve ROC per set di dati non bilanciati


10

Considera una matrice di input e un'uscita binaria .Xy

Un modo comune per misurare le prestazioni di un classificatore è utilizzare le curve ROC.

In un diagramma ROC la diagonale è il risultato che verrebbe ottenuto da un classificatore casuale. In caso di uscita sbilanciata possibile migliorare le prestazioni di un classificatore casuale scegliendo o con diverse probabilità.y01

Come può essere rappresentata la prestazione di tale classificatore in un diagramma delle curve ROC? Suppongo che dovrebbe essere una linea retta con un angolo diverso e non più la diagonale?

Esempio di curva ROC


2
Potresti invece provare la curva di richiamo di precisione, "Il diagramma di richiamo di precisione è più informativo del diagramma ROC quando si valutano classificatori binari su set di dati non bilanciati", ncbi.nlm.nih.gov/pmc/articles/PMC4349800 , probabilmente più sito Web accessibile creato dagli autori dell'articolo, classeval.wordpress.com/simulation-analysis/…
zyxue,

Risposte:


16

Le curve ROC sono insensibili al bilanciamento di classe. La linea retta che ottieni per un classificatore casuale ora è già il risultato dell'utilizzo di diverse probabilità di ottenere positivo (0 ti porta a (0, 0) e 1 ti porta a (1, 1) con qualsiasi intervallo tra di loro).

Nulla cambia in un ambiente squilibrato.


1
Trovo utile considerare il significato dell'area sotto la curva per capire perché la diagonale non cambia. L'AUC può essere interpretata come la probabilità che un esempio positivo selezionato casualmente abbia un punteggio più alto di un esempio negativo selezionato casualmente. 1 . Questo mi rende più chiaro perché lo squilibrio di classe non è un problema.
JBecker,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.