Razionale dell'utilizzo dell'AUC?


10

Soprattutto nella parte orientata all'informatica della letteratura sull'apprendimento automatico, l'AUC (area sotto la curva caratteristica dell'operatore ricevente) è un criterio popolare per la valutazione dei classificatori. Quali sono le giustificazioni per l'utilizzo dell'AUC? Ad esempio, esiste una particolare funzione di perdita per la quale la decisione ottimale è il classificatore con la migliore AUC?


1
L'AUC è una funzione di perdita, è chiaro che per questa funzione di perdita la decisione ottimale è il classificatore con la migliore AUC.
Robin Girard,

1
@robingirard No, perché non è differenziabile, cioè non è possibile ottimizzarlo direttamente.
cpury,

Risposte:


15

Per i classificatori binari utilizzati per il ranking (ovvero per ogni esempio abbiamo nell'intervallo ) da cui viene misurata l'AUC, l'AUC è equivalente alla probabilità che dove è un vero esempio positivo e è un vero esempio negativo. Pertanto, la scelta di un modello con l'AUC massima riduce al minimo la probabilità che . Cioè, riduce al minimo la perdita di classificazione di un vero negativo almeno grande quanto un vero positivo.CeC(e)[0,1]C(e1)>C(e0)e1e0C(e0)C(e1)


0

Facciamo un semplice esempio di identificazione del pomodoro buono da un pool di pomodoro buono + cattivo. Supponiamo che il numero di pomodori buoni sia 100 e che il pomodoro cattivo sia 1000, quindi un totale di 1100. Ora il tuo compito è quello di identificare quanti più pomodori buoni possibile. Un modo per ottenere tutto il buon pomodoro è prendere tutti i 1100 pomodori. Ma dice chiaramente che non sei in grado di differenziare b / n buono e cattivo .

Quindi, qual è il modo giusto di differenziare - è necessario ottenere tanti buoni mentre ne raccolgono pochissimi cattivi , quindi abbiamo bisogno di una misura qualcosa, che possa dire quanti buoni abbiamo raccolto e anche dire in cosa contano i cattivi esso. La misura AUC dà più peso se è in grado di selezionare più buoni con pochi cattivi come illustrato di seguito. che dice quanto sei bravo a distinguere b / n bene e male.

Nell'esempio puoi osservare che mentre raccogli il 70% di pomodoro buono, la curva nera ha raccolto circa il 48% di quelli cattivi (impurità), ma uno blu ha l'83% di quelli cattivi (impurità). Quindi la curva nera ha un punteggio AUC migliore rispetto a quello blu. inserisci qui la descrizione dell'immagine


Come risponde alla domanda?
Vivek Subramanian,

Avevo scritto con intuizione di AUC che, aiuta a dare un punteggio singolo per identificare quelli buoni (1 in classifica binaria) in tutta la popolazione riducendo il numero di falsi positivi. Aiutami come avrei potuto fare di meglio per questo.
yugandhar,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.