Perché AUC = 1 persino il classificatore ha classificato erroneamente metà dei campioni?


20

Sto usando un classificatore che restituisce probabilità. Per calcolare l'AUC, sto usando il pacchetto R pROC. Le probabilità di output dal classificatore sono:

probs=c(0.9865780,
0.9996340,
0.9516880,
0.9337157,
0.9778576,
0.8140116,
0.8971550,
0.8967585,
0.6322902,
0.7497237)

probsmostra la probabilità di essere nella classe '1'. Come mostrato, il classificatore ha classificato tutti i campioni nella classe '1'.

Il vero vettore dell'etichetta è:

truel=c(1, 1, 1, 1, 1, 0, 0, 0, 0, 0)

Come mostrato, il classificatore ha classificato erroneamente 5 campioni. Ma l'AUC è:

pROC::auc(truel, probs)
Area under the curve: 1

Potresti spiegarmi perché succede?


Risposte:


21

L'AUC è una misura della capacità di classificare esempi in base alla probabilità di appartenenza alla classe. Pertanto, se tutte le probabilità sono superiori a 0,5, è comunque possibile avere un'AUC di uno se tutti i modelli positivi hanno probabilità più elevate di tutti i modelli negativi. In questo caso ci sarà una soglia di decisione superiore a 0,5, che darebbe un tasso di errore pari a zero. Si noti che poiché l'AUC misura solo la classifica delle probabilità, non ti dice se le probabilità sono ben calibrate (ad es. Non ci sono errori sistematici), se la calibrazione delle probabilità è importante, allora guarda la metrica cross-entropia.


21

Le altre risposte spiegano cosa sta succedendo ma ho pensato che una foto potesse essere carina.

Puoi vedere che le classi sono perfettamente separate, quindi l'AUC è 1, ma la soglia a 1/2 produrrà un tasso di classificazione errata del 50%.

probs


21

I campioni non sono stati "classificati erroneamente". Gli 0esempi sono classificati in modo rigorosamente inferiore agli 1esempi. AUROC sta facendo esattamente ciò che è definito fare, ovvero misurare la probabilità che un selezionato casualmente 1sia classificato più in alto di un selezionato casualmente 0. In questo esempio, questo è sempre vero, quindi è un evento di probabilità 1.

Tom Fawcett ha un grande articolo espositivo sulle curve ROC. Suggerirei di iniziare da lì.

Tom Fawcett. "Un'introduzione all'analisi ROC." Lettere di riconoscimento del modello. Del 2005.


3
+1 Il documento di Fawcett è davvero un ottimo punto di partenza.
Dikran Marsupial
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.