Area sotto curva di ROC rispetto a precisione complessiva


29

Sono un po 'confuso riguardo l'Area Under Curve (AUC) di ROC e l'accuratezza complessiva.

  1. L'AUC sarà proporzionale alla precisione complessiva? In altre parole, quando avremo una maggiore precisione complessiva avremo sicuramente una AUC più grande? O sono per definizione correlati positivamente?

  2. Se sono correlati positivamente, perché dovremmo preoccuparci di riportarli entrambi in alcune pubblicazioni?

  3. Nel caso reale, ho eseguito alcune attività di classificazione e ho ottenuto i risultati come segue: il classificatore A ha un'accuratezza dell'85% e l'AUC di 0,98 e il classificatore B ha un'accuratezza del 93% e l'AUC di 0,92. La domanda è: quale classificatore è meglio? O è possibile ottenere risultati simili come questi (intendo che potrebbe esserci un bug nella mia implementazione)?


1
Ho scoperto che un articolo potrebbe avere un certo interesse per alcuni di voi. google.co.uk/…
Samo Jerom,

L'AUC non dovrebbe essere inferiore all'accuratezza complessiva poiché contiamo per il tasso di falsi positivi nella misura AUC mentre non nell'accuratezza ???
Ali Sultan,

ROC AUC è utile quando le classi hanno dimensioni diverse. Se il 99% degli oggetti è positivo, è possibile ottenere una precisione del 99% mediante campionamento casuale. Quindi il valore ROC AUC sarà molto più significativo.
Anony-Mousse

Risposte:


26

L'AUC (basato sul ROC) e l'accuratezza complessiva non sembrano lo stesso concetto.

La precisione complessiva si basa su un punto di taglio specifico, mentre ROC prova tutti i punti di taglio e traccia la sensibilità e la specificità. Quindi, quando confrontiamo l'accuratezza complessiva, stiamo confrontando l'accuratezza sulla base di alcuni punti di interruzione. La precisione complessiva varia a seconda del punto di taglio.


2
Grazie mille per la risposta! Comprendo che l'accuratezza complessiva è ottenuta da un certo punto di taglio (o valore di soglia). Tuttavia, esiste un miglior punto di taglio, cioè quello più vicino all'angolo in alto a sinistra. Ad esempio, la mia precisione complessiva viene calcolata utilizzando questo miglior punto di taglio e l'AUC è per tutti i diversi punti di taglio. Allora come interpretare questa precisione e AUC? Ad esempio, le prestazioni dei due classificatori che ho menzionato sopra.
Samo Jerom,

3
Oh, capisco. Stai confrontando la migliore precisione e AUC complessive. Ma sono ancora concetti diversi. L'AUC è P (VERO previsto | VERO effettivo) vs P (FALSO | FALSO), mentre l'accuratezza complessiva è P = P (VERO | VERO) * P (VERO effettivo) + P (FALSO | FALSO) * P ( reale FALSO). Quindi questo dipende molto dalla proporzione del valore reale sul set di dati. In pratica, sembra che la migliore accuratezza complessiva sia generalmente raggiunta quando il punto di taglio è vicino alla P (VERO effettivo).
Vincent

Pertanto, AUC e la migliore accuratezza complessiva potrebbero non essere coerenti, a seconda della proporzione del valore reale del set di dati. Nel tuo caso, sembra che uno dei classificatori sia più focalizzato sulla sensibilità mentre l'altro sulla specificità. E sul set di dati corrente, la P (TRUE) non è del 50%. Quindi la sensibilità e la specificità contribuiscono all'accuratezza complessiva con pesi diversi. In pratica, il ROC può darci maggiori informazioni e vorremmo scegliere il caso più classico per caso. Ad esempio, il classificatore di spam può essere più focalizzato su P (non spam | non spam) per evitare di perdere e-mail importanti.
Vincent,

Grazie per la tua risposta. Adesso è molto più chiaro. Ma se qualcuno ha più voglia di discutere, per favore pubblica qui.
Samo Jerom,

27

Mentre è probabile che le due misure statistiche siano correlate, misurano diverse qualità del classificatore.

AUROC

L'area sotto la curva (AUC) è uguale alla probabilità che un classificatore classifichi un'istanza positiva scelta casualmente più alta di un esempio negativo scelto casualmente. Misura l'abilità dei classificatori nel classificare un insieme di modelli in base al grado in cui appartengono alla classe positiva, ma senza assegnare effettivamente i modelli alle classi.

L'accuratezza complessiva dipende anche dalla capacità del classificatore di classificare gli schemi, ma anche dalla sua capacità di selezionare una soglia nella classifica utilizzata per assegnare gli schemi alla classe positiva se al di sopra della soglia e alla classe negativa se al di sotto.

Pertanto, il classificatore con la statistica AUROC più elevata (a parità di condizioni) avrà probabilmente anche un'accuratezza complessiva più elevata poiché la classificazione dei modelli (misurata da AUROC) è vantaggiosa sia per AUROC sia per l'accuratezza complessiva. Tuttavia, se un classificatore classifica bene i modelli, ma seleziona male la soglia, può avere un AUROC alto ma una scarsa precisione complessiva.

Uso pratico

In pratica, mi piace raccogliere l'accuratezza complessiva, l'AUROC e se il classificatore stima la probabilità di appartenenza alla classe, l'entropia incrociata o le informazioni predittive. Quindi ho una metrica che misura la sua capacità grezza di eseguire una dura classificazione (supponendo che i costi di errata classificazione di falso positivo e falso negativo siano uguali e le frequenze di classe nel campione siano le stesse di quelle in uso operativo - un grande presupposto!), una metrica che misura la capacità di classificare i modelli e una metrica che misura quanto la classificazione viene calibrata come una probabilità.

Per molte attività, i costi di classificazione errata operativa sono sconosciuti o variabili oppure le frequenze delle classi operative sono diverse da quelle nel campione di addestramento o sono variabili. In tal caso, l'accuratezza complessiva è spesso abbastanza insignificante e l'AUROC è un indicatore migliore delle prestazioni e idealmente desideriamo un classificatore che fornisca probabilità ben calibrate, in modo da poter compensare questi problemi nell'uso operativo. Fondamentalmente quale metrica è importante dipende dal problema che stiamo cercando di risolvere.


Dikran, hai un riferimento per il tuo primo paragrafo?
Bunder

@Bunder non direttamente, AUROC è la probabilità che un modello + ve selezionato casualmente sia classificato più in alto di un modello -ve selezionato casualmente ( en.wikipedia.org/wiki/… ) e quindi è una misura della qualità della classifica , poiché vorremmo che tale probabilità fosse il più elevata possibile.
Dikran Marsupial,

5

L'AUC è davvero una metrica molto utile?

Direi che il costo previsto è una misura più appropriata.

Quindi avresti un costo A per tutti i falsi positivi e un costo B per tutti i falsi negativi. Potrebbe facilmente essere che un'altra classe sia relativamente più costosa di altre. Naturalmente, se si hanno costi per una falsa classificazione nei vari sottogruppi, la metrica sarebbe ancora più potente.

Tracciando il cut-off nell'asse xe il costo previsto sull'asse y, è possibile vedere quale punto di taglio riduce al minimo il costo previsto.

Formalmente si ha una perdita in funzione della perdita (cut-off | dati, costo) che si tenta di minimizzare.


3
Il costo previsto può essere valutato solo se si conoscono i costi falsi positivi e falsi negativi, che non sono necessari per il calcolo dell'AUC, che è una buona statistica da utilizzare se i costi sono sconosciuti o variabili.
Dikran Marsupial,

4

Come tutte le risposte sono state pubblicate: ROCed accuracyè fondamentale due concetti diversi.

In generale, ROCdescrive il potere discriminatorio di un classificatore indipendente dalla distribuzione della classe e da costi di errore di previsione disuguali (falso positivo e falso costo negativo).

La metrica simile accuracyviene calcolata in base alla distribuzione della classe di test dataseto cross-validation, ma questo rapporto può cambiare quando si applica il classificatore ai dati della vita reale, poiché la distribuzione della classe sottostante è stata modificata o sconosciuta. D'altra parte, TP ratee FP rateche sono usati per costruire AUCnon saranno influenzati dal cambio di distribuzione delle classi.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.