Comparatore di due modelli quando le curve ROC si incrociano


13

Una misura comune utilizzata per confrontare due o più modelli di classificazione è utilizzare l'area sotto la curva ROC (AUC) come modo per valutare indirettamente le loro prestazioni. In questo caso, un modello con una AUC più grande viene generalmente interpretato come performante di un modello con una AUC più piccola. Ma, secondo Vihinen, 2012 ( https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3303716/ ), quando entrambe le curve si incrociano, tale confronto non è più valido. Perché è così?

Ad esempio, cosa si potrebbe accertare dei modelli A, B e C basati sulle curve ROC e sulle AUC seguenti?

inserisci qui la descrizione dell'immagine

Risposte:


19

Una curva ROC visualizza TPR e FPR per tutte le soglie possibili .

  • Se tracciate due curve ROC 'A' e 'B' e non si incrociano , uno dei vostri classificatori si comporta chiaramente meglio, perché per tutti i possibili valori FPR si ottiene un TPR più alto. Ovviamente anche l'area sotto il ROC sarà maggiore.

  • Ora, se si incrociano , allora c'è un punto in cui FPR e TPR sono uguali per entrambe le curve 'A' e 'B' . Non puoi più dire che una curva ROC funziona meglio, poiché ora dipende dal trade-off che preferisci. Volete alta precisione / richiamo basso o bassa precisione / richiamo alto ?

Esempio: se un classificatore si comporta molto meglio con un FPR di 0,2, ma è importante raggiungere un Richiamo elevato , allora si comporta bene su una soglia che non ti interessa.

Informazioni sulle curve ROC nel tuo grafico: puoi facilmente dire che "A" funziona molto meglio, senza nemmeno sapere cosa vuoi ottenere. Non appena la curva viola incrocia gli altri, li incrocia di nuovo. Molto probabilmente non sei interessato a quella piccola parte , dove 'B' e 'C' si comportano leggermente meglio .

Nel grafico seguente sono visualizzate due curve ROC, anch'esse incrociate. Qui, non puoi dire quale sia la migliore in quanto si completano a vicenda .

Incrocio di curve ROC

Si noti che alla fine della giornata, si è interessati a scegliere una soglia per la propria classificazione e l' AUC fornisce solo una stima del rendimento di un modello in generale .


Solo per conferma, nel mio esempio, se scelgo un valore di cut-off molto elevato, dove la precisione è grande, il modello A avrebbe prestazioni B e C con un buon margine?
Edu,

Come fai a sapere dove la precisione è grande? Questo è un ROC, non una curva di richiamo di precisione. Per la precisione controlli la probabilità di True Positive, dato che il tuo classificatore ha detto Positive.
Laksan Nathan,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.