L'AUC è la probabilità di classificare correttamente un'istanza selezionata casualmente da ciascuna classe?


10

Ho letto questa didascalia in un documento e non ho mai visto l'AUC descritta in questo modo altrove. È vero? Esiste un modo semplice o prova per vederlo?

La Fig. 2 mostra l'accuratezza della predizione delle variabili dicotomiche espresse in termini dell'area sotto la curva caratteristica operativa del ricevitore (AUC), che equivale alla probabilità di classificare correttamente due utenti selezionati casualmente uno da ciascuna classe (ad esempio, maschio e femmina ).

Mi sembra che non possa essere vero, dal momento che per AUC = 0,5, quanto sopra suggerirebbe che si abbia una probabilità del 50% di prevedere correttamente il lancio di una moneta due volte di seguito, ma in realtà si ha solo una probabilità del 25% di prevedere correttamente due lanci di monete di fila. Almeno, è così che sto pensando a questa affermazione.


1
Apprezzo il concetto espresso nel titolo non è del tutto giusto, ma per abbinare la citazione, non dovrebbe dire "la probabilità di classificare correttamente ..." piuttosto che solo "la probabilità di classificare"? Mi ha confuso la prima volta che l'ho letto.
Silverfish,

1
Era già un titolo abbastanza lungo! In realtà ho pensato di aggiungere "correttamente" che ci crediate o no. :)
thecity2,

Risposte:


14

La quotazione è leggermente errata. L'affermazione corretta è che l'AUC di ROC è la probabilità che un esempio positivo scelto casualmente sia classificato più in alto di un esempio negativo scelto casualmente. Ciò è dovuto alla relazione tra ROC AUC e il test dei ranghi di Wilcoxon.

La discussione in Tom Fawcett " An Introduction to ROC Analysis " è illuminante.


8

La descrizione dell'autore non è del tutto accurata. L'area sotto la curva ROC è effettivamente uguale alla probabilità che un esempio positivo selezionato casualmente abbia un punteggio di rischio più elevato rispetto a quello di un esempio negativo selezionato casualmente. Questo non ha necessariamente nulla a che fare con la classificazione, è solo una misura della separazione tra le distribuzioni dei punteggi.

Per il tuo esempio di moneta, immagina di avere due monete e ognuna ha un punteggio associato. Quindi lanci entrambe le monete fino a quando uno esce testa e l'altra croce (dal momento che stiamo condizionando risultati diversi). Ciò equivale ad avere un modello che fa un punteggio casuale, e la probabilità che la moneta che esce testa abbia un punteggio più alto (o più basso) è 1/2.


2

La descrizione che hai letto è corretta, anche se non mi piace la sua formulazione. L'area sotto la curva ROC (AUC) è la probabilità di classificare correttamente una coppia casuale di individui nella classe 1 dalla classe 2. È una statistica basata sul rango, quindi se dovessi indovinare se un individuo in coppia è classificato più in alto di l'altro, questa è solo una probabilità del 50% se si indovina a caso. L'AUC è identico [1] alla statistica del test dei ranghi firmati Wilcoxon e questo può essere usato per illustrarne il significato.

[1]: Mason & Graham (2002). Aree al di sotto delle curve delle caratteristiche operative relative (ROC) e dei livelli operativi relativi (ROL): significato statistico e interpretazione. Rivista trimestrale della Royal Meteorological Society. 128: 2145–2166.


1

Come altri hanno sottolineato, l'AUC esprime la probabilità che un esempio scelto casualmente dalla classe positiva riceva, dal classificatore, un punteggio più alto di un esempio scelto casualmente dalla classe negativa.

Per la prova di questa proprietà, vedi: Come derivare una formula matematica per l'AUC?

O la fonte utilizzata per quella risposta: D. Hand, 2009, Misurare le prestazioni del classificatore: un'alternativa coerente all'area sotto la curva ROC

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.