ROC vs curve di precisione e richiamo


159

Comprendo le differenze formali tra loro, quello che voglio sapere è quando è più pertinente usare l'uno contro l'altro.

  • Forniscono sempre informazioni complementari sulle prestazioni di un determinato sistema di classificazione / rilevamento?
  • Quando è ragionevole fornire entrambi, per esempio, in un documento? invece di uno solo?
  • Esistono descrittori alternativi (forse più moderni) che catturano gli aspetti rilevanti sia del ROC sia del richiamo di precisione per un sistema di classificazione?

Sono interessato agli argomenti sia per i casi binari che multi-classe (ad es. Come uno contro tutti).


7
Questo documento deve solo apparire in un contesto: biostat.wisc.edu/~page/rocpr.pdf

2
Potrei usarlo come "plug" per menzionare la mia tesi qui ... In Leitner (2012) ho proposto una metrica "F -uced Average Average" (FAP) (vedi p. 65) come media armonica di F- misura e precisione media. Vale a dire, una combinazione di una metrica di valutazione impostata con quella di una metrica di valutazione classificata. Nella tesi, ho dimostrato che l'ottimizzazione del punteggio FAP sul set di allenamento può essere utilizzata per identificare il cutoff migliore per delimitare un'attività di recupero di informazioni altrimenti illimitata (utilizzando centinaia di corse BioCreative!).
fnl

1
Ecco un'altra buona discussione su AUC-ROC e curva PR su un set di dati sbilanciato. Ha le stesse conclusioni di quello che ha detto dsimcha. Quando ti preoccupi di più del raro caso, dovresti usare PR.
YC

Risposte:


207

La differenza chiave è che le curve ROC saranno le stesse indipendentemente dalla probabilità di base, ma le curve PR possono essere più utili nella pratica per problemi di tipo ago nel pagliaio o problemi in cui la classe "positiva" è più interessante di quella negativa classe.

Per dimostrarlo, innanzitutto cominciamo con un modo molto carino di definire precisione, richiamo e specificità. Si supponga di avere una classe "positivo" chiamato 1 e una classe "negativo" chiamato 0. è la vostra stima del vero etichetta di classe . Quindi: La cosa fondamentale da notare è che sensibilità / richiamo e specificità , che compongono la curva ROC, sono le probabilità condizionate sull'etichetta della vera classe . Pertanto, saranno uguali indipendentemente da cosa sia . La precisione è una probabilità condizionata YY^Y P(Y=1)P(Y=1)

Precision=P(Y=1|Y^=1)Recall=Sensitivity=P(Y^=1|Y=1)Specificity=P(Y^=0|Y=0)
P(Y=1)la tua stima dell'etichetta di classe e varierà quindi se provi il tuo classificatore in popolazioni diverse con baseline diversa . Tuttavia, può essere più utile in pratica se ti interessa solo una popolazione con probabilità di fondo nota e la classe "positiva" è molto più interessante della classe "negativa". (La precisione IIRC è popolare nel campo del recupero del documento, in questo caso.) Questo perché risponde direttamente alla domanda "Qual è la probabilità che si tratti di un vero successo dato che il mio classificatore dice che lo è?".P(Y=1)

È interessante notare che con il teorema di Bayes puoi elaborare casi in cui la specificità può essere molto elevata e la precisione molto bassa contemporaneamente. Tutto quello che devi fare è assumere che sia molto vicino allo zero. In pratica ho sviluppato diversi classificatori con questa caratteristica prestazionale durante la ricerca di aghi nei covoni di fieno del DNA.P(Y=1)

IMHO quando scrivi un articolo dovresti fornire qualunque curva risponda alla domanda a cui vuoi rispondere (o qualunque sia la più favorevole al tuo metodo, se sei cinico). Se la tua domanda è: "Quanto è significativo un risultato positivo dal mio classificatore date le probabilità di base del mio problema ?", Usa una curva PR. Se la tua domanda è: "In che misura ci si può aspettare che questo classificatore funzioni in generale, con una varietà di diverse probabilità di base ?", Seguire una curva ROC.


10
è stata una spiegazione fantastica!
Amelio Vazquez-Reina,

5
+1, grande comprensione delle interpretazioni probabilistiche di precisione, richiamo e specificità.
Zhubarb,

2
Che risposta! Vorrei poter votare due volte il voto.
Ragazzo di Londra,

6
Nel caso in cui ciò non fosse chiaro dal mio commento precedente: questa risposta è sbagliata , così come le curve ROC che usano la specificità. Vedi, ad esempio, Un'introduzione all'analisi ROC - che suggerisce anche la loro mancanza, come documentato nella mia risposta: "Molti domini del mondo reale sono dominati da un gran numero di istanze negative, quindi le prestazioni nella parte più a sinistra del grafico ROC diventano più interessante."
fnl,

2
+0.5 @fnl. Pur non essendo esplicitamente sbagliato, penso che alla risposta manchi il punto della domanda; l'interpretazione probabilistica è molto benvenuta ma è discutibile rispetto alla domanda principale. Inoltre, non riesco a trovare un esempio realistico generico in cui la domanda: " Quanto è significativo un risultato positivo dal mio classificatore, date le probabilità di base del mio problema? " È inapplicabile. La prospettiva " in generale " del ROC-AUC è semplicemente troppo sfocata. (Va da sé che nessuno dei due dovrebbe essere usato sul valore nominale per costruire il modello finale)
usεr11852

26

Ecco le conclusioni di un articolo di Davis & Goadrich che spiega la relazione tra ROC e spazio PR. Rispondono alle prime due domande:

Innanzitutto, per qualsiasi set di dati, la curva ROC e la curva PR per un determinato algoritmo contengono gli stessi punti. Questa equivalenza porta al sorprendente teorema che una curva domina nello spazio ROC se e solo se domina nello spazio PR. Secondo, come corollario del teorema mostriamo l'esistenza dell'analogo dello spazio PR allo scafo convesso nello spazio ROC, che chiamiamo curva PR realizzabile. Sorprendentemente, quando si costruisce la curva PR ottenibile, si scartano esattamente gli stessi punti omessi dallo scafo convesso nello spazio ROC. Di conseguenza, possiamo calcolare in modo efficiente la curva PR ottenibile. [...] Infine, mostriamo che un algoritmo che ottimizza l'area sotto la curva ROC non è garantito per ottimizzare l'area sotto la curva PR.

In altre parole, in linea di principio, ROC e PR sono ugualmente adatti per confrontare i risultati. Ma nel caso esemplificativo di un risultato di 20 successi e mancati 1980, mostrano che le differenze possono essere piuttosto drastiche, come mostrato nelle Figure 11 e 12.

Figure 11 e 12 di Davis e Goadrich

Risultato / curva (I) descrive un risultato in cui 10 dei 20 colpi sono tra i primi dieci ranghi e i restanti 10 colpi vengono quindi distribuiti uniformemente sui primi 1500 gradi. Resut (II) descrive un risultato in cui i 20 colpi sono distribuiti uniformemente sui primi 500 (su 2000) ranghi. Quindi, nei casi in cui è preferibile una "forma" come (I), questa preferenza è chiaramente distinguibile nello spazio PR, mentre l'AUC ROC dei due risultati è quasi uguale.


1
Questi grafici non riflettono (discretizzano) la situazione descritta, che mostrerebbe i passaggi nelle curve ROC ogni volta che si incontra un colpo (dopo i primi 10 per la curva I). ROCCH sarebbe simile a questo con lo scafo convesso. Analogamente per le PR, Precision aumenterebbe di un livello ogni volta che veniva rilevato un colpo, quindi decadrebbe durante i fallimenti, a partire da (0,0) per nulla previsto (sopra la soglia) se Precision fosse definito come 0 a questo punto (0 / 0) - la curva II come mostrato è la precisione massima non la precisione a ciascun livello di soglia (e quindi di richiamo).
David MW

1
Questa è in realtà la Fig 7 nella versione del documento che ho trovato. La carta in realtà interpola la curva PR usando la curva ROC. Si noti che il risultato della dominazione si basa sul presupposto che il richiamo sia diverso da zero, il che non è il caso fino a quando non viene trovato il primo colpo, e la Precisione (come definita nel documento) è formalmente indefinita (0/0) fino ad allora.
David MW

1
Sì, la mancanza di una discretizzazione corretta è il problema (sebbene una trama come questa potrebbe verificarsi se calcolata la media su un gran numero di esecuzioni). Tuttavia, il risultato del documento è meno significativo di quanto ci si possa aspettare a causa di problemi di indefinimento, e non è così significativo come ci si aspetterebbe quando si capisce il risultato in termini di riscalaggio. Non userei mai PR, ma a volte ridimensionerei in ROC o userei equivalentemente PN.
David MW si accende il

1
Innanzitutto i grafici di Fig. 7 (11 contro 12) sono irrilevanti: non sono i grafici a gradini per un sistema addestrato (poiché gli esempi positivi superano una soglia di riduzione), ma corrispondono a medie limite quando il numero di DIFFERENTI sistemi si avvicina all'infinito. Second Precision e Recall sono stati progettati per la ricerca sul Web ed entrambi IGNORANO totalmente il numero (presunto grande) di veri negativi (Prec = TP / PP e Rec = TP / RP). In terzo luogo, il grafico di Precisione e Richiamo mostra in realtà solo la distorsione reciproca (1 / PP) rispetto alla prevalenza reciproca (1 / RP) per un particolare livello TP (se hai interrotto una ricerca web ai colpi TP corretti).
David MW si accende il

5
OK, quindi dopo aver chiarito tutti i miei dubbi, penso che sia necessario informare i lettori che credo che la risposta di @DavidMWPowers dovrebbe essere preferita alla mia.
fnl

12

Vi sono molti malintesi sulla valutazione. Parte di questo deriva dall'approccio di Machine Learning nel tentativo di ottimizzare gli algoritmi sui set di dati, senza alcun reale interesse per i dati.

In un contesto medico, si tratta dei risultati del mondo reale, ad esempio quante persone salvi dalla morte. In un contesto medico, la Sensibilità (TPR) è usata per vedere quanti casi positivi sono stati correttamente rilevati (minimizzando la percentuale mancata come falsi negativi = FNR) mentre Specificità (TNR) è usata per vedere quanti casi negativi sono correttamente eliminato (minimizzando la percentuale trovata come falsi positivi = FPR). Alcune malattie hanno una prevalenza di uno su un milione. Pertanto, se si prevede sempre un valore negativo, si ha un'accuratezza di 0,999999: ciò è ottenuto dal semplice studente ZeroR che prevede semplicemente la classe massima. Se consideriamo Richiamo e Precisione per prevedere che sei libero da malattia, allora abbiamo Richiamo = 1 e Precisione = 0.999999 per ZeroR. Ovviamente, se inverti + ve e -ve e provi a prevedere che una persona ha la malattia con ZeroR ottieni Recall = 0 e Precision = undef (poiché non hai nemmeno fatto una previsione positiva, ma spesso le persone definiscono la Precisione come 0 in questo Astuccio). Si noti che Recall (+ ve Recall) e Inverse Recall (-ve Recall) e i relativi TPR, FPR, TNR e FNR sono sempre definiti perché stiamo affrontando il problema solo perché sappiamo che ci sono due classi da distinguere e che forniamo deliberatamente esempi di ciascuno.

Nota l'enorme differenza tra la mancanza di cancro nel contesto medico (qualcuno muore e vieni citato in giudizio) rispetto alla mancanza di un documento in una ricerca sul web (è probabile che uno degli altri lo faccia riferimento se è importante). In entrambi i casi questi errori sono caratterizzati da falsi negativi, rispetto a una vasta popolazione di negativi. Nel caso websearch otterremo automaticamente una grande popolazione di veri negativi semplicemente perché mostriamo solo un piccolo numero di risultati (ad esempio 10 o 100) e non essere mostrati non dovrebbe davvero essere preso come una previsione negativa (potrebbe essere stato 101 ), mentre nel caso del test del cancro abbiamo un risultato per ogni persona e, a differenza di websearch, controlliamo attivamente il livello di falsi negativi (tasso).

Quindi il ROC sta esplorando il compromesso tra veri positivi (rispetto ai falsi negativi come proporzione dei veri positivi) e falsi positivi (rispetto ai veri negativi come proporzione dei reali negativi). È equivalente al confronto tra sensibilità (+ ve Recall) e specificità (-ve Recall). C'è anche un grafico PN che sembra lo stesso in cui tracciamo TP vs FP piuttosto che TPR vs FPR - ma poiché facciamo il quadrato della trama l'unica differenza sono i numeri che mettiamo sulla bilancia. Sono correlati dalle costanti TPR = TP / RP, FPR = TP / RN dove RP = TP + FN e RN = FN + FP sono il numero di positivi reali e negativi reali nel set di dati e al contrario distorce PP = TP + FP e PN = TN + FN è il numero di volte in cui prevediamo positivo o prediamo negativo. Si noti che chiamiamo rp = RP / N e rn = RN / N la prevalenza di resp positivo. negativo e pp = PP / N e rp = RP / N il bias a positivo resp.

Se sommiamo o mediamo la sensibilità e la specificità o osserviamo l'area sotto la curva di compromesso (equivalente a ROC che inverte l'asse x) otteniamo lo stesso risultato se scambiamo quale classe è + ve e + ve. Questo NON è vero per la precisione e il richiamo (come illustrato sopra con la previsione della malattia da ZeroR). Questa arbitrarietà è una grave carenza di precisione, richiamo e loro medie (sia aritmetiche, geometriche o armoniche) e grafici di compromesso.

I grafici PR, PN, ROC, LIFT e altri vengono tracciati quando i parametri del sistema vengono modificati. Questo traccia classico dei punti per ogni singolo sistema addestrato, spesso con una soglia aumentata o diminuita per cambiare il punto in cui un'istanza viene classificata positiva contro negativa.

A volte i punti tracciati possono essere medi (modificando parametri / soglie / algoritmi di) insiemi di sistemi addestrati allo stesso modo (ma utilizzando numeri casuali o campionamenti o ordini diversi). Questi sono costrutti teorici che ci parlano del comportamento medio dei sistemi piuttosto che delle loro prestazioni su un problema particolare. I grafici di compromesso hanno lo scopo di aiutarci a scegliere il punto operativo corretto per una particolare applicazione (set di dati e approccio) ed è qui che ROC prende il nome (Caratteristiche operative del ricevitore mira a massimizzare le informazioni ricevute, nel senso di informalità).

Consideriamo ciò che Recall, TPR o TP possono essere tracciati.

TP vs FP (PN) - sembra esattamente come il diagramma ROC, solo con numeri diversi

TPR vs FPR (ROC) - TPR contro FPR con AUC è invariato se +/- sono invertiti.

TPR vs TNR (alt ROC) - immagine speculare di ROC come TNR = 1-FPR (TN + FP = RN)

TP vs PP (LIFT) - X inc per esempi positivi e negativi (allungamento non lineare)

TPR vs pp (alt LIFT): ha lo stesso aspetto di LIFT, solo con numeri diversi

TP vs 1 / PP - molto simile al LIFT (ma invertito con allungamento non lineare)

TPR vs 1 / PP: sembra uguale a TP vs 1 / PP (numeri diversi sull'asse y)

TP vs TP / PP - simile ma con espansione dell'asse x (TP = X -> TP = X * TP)

TPR vs TP / PP: sembra lo stesso ma con numeri diversi sugli assi

L'ultimo è Richiamo vs precisione!

Nota per questi grafici eventuali curve che dominano altre curve (sono migliori o almeno altrettanto alte in tutti i punti) continueranno a dominare dopo queste trasformazioni. Poiché il dominio significa "almeno altrettanto alto" in ogni punto, la curva più alta ha anche "almeno altrettanto alta" un'area sotto la curva (AUC) in quanto include anche l'area tra le curve. Il contrario non è vero: se le curve si intersecano, al contrario del tocco, non c'è dominio, ma una AUC può essere ancora più grande dell'altra.

Tutte le trasformazioni fanno è riflettere e / o zoomare in modi diversi (non lineari) verso una parte particolare del grafico ROC o PN. Tuttavia, solo ROC ha la bella interpretazione di Area under the Curve (probabilità che un positivo sia classificato più in alto di un negativo - statistica U di Mann-Whitney) e Distance above the Curve (probabilità che venga presa una decisione informata piuttosto che indovinare - Youden J statistica come forma dicotomica di Informedness).

In generale, non è necessario utilizzare la curva di compromesso PR e è possibile semplicemente ingrandire la curva ROC se sono richiesti dettagli. La curva ROC ha la proprietà unica che la diagonale (TPR = FPR) rappresenta la probabilità, che la distanza sopra la linea del rischio (DAC) rappresenti informalità o la probabilità di una decisione informata e che l'area sotto la curva (AUC) rappresenti la classificazione o la probabilità di una corretta classificazione a coppie. Questi risultati non valgono per la curva PR e l'AUC viene distorta per richiami o TPR più elevati, come spiegato sopra. Il fatto che l'AUC delle PR sia più grande non lo è implica che l'AUC del ROC è più grande e quindi non implica un aumento della Classificazione (probabilità che le coppie +/- classificate siano correttamente previste - vale a dire. con quale frequenza predice + ves sopra -ves) e non implica una maggiore Informalità (probabilità di una previsione informata piuttosto che un'ipotesi casuale - vale a dire quanto spesso sa cosa sta facendo quando fa una previsione).

Spiacenti, nessun grafico! Se qualcuno vuole aggiungere grafici per illustrare le trasformazioni di cui sopra, sarebbe fantastico! Ne ho parecchi nei miei articoli su ROC, LIFT, BIRD, Kappa, F-measure, Informedness, ecc. Ma non sono presentati in questo modo anche se ci sono illustrazioni di ROC vs LIFT vs BIRD vs RP in https : //arxiv.org/pdf/1505.00401.pdf

AGGIORNAMENTO: Per evitare di provare a fornire spiegazioni complete in risposte o commenti troppo lunghi, ecco alcuni dei miei articoli che "scoprono" il problema con Precision vs Recall tradeoffs inc. F1, derivando Informedness e poi "esplorando" le relazioni con ROC, Kappa, Significance, DeltaP, AUC, ecc. Questo è un problema che uno dei miei studenti ha incontrato 20 anni fa (Entwisle) e molti altri hanno trovato quell'esempio reale di loro dove c'erano prove empiriche che l'approccio R / P / F / A mandava lo studente in modo ERRATO, mentre Informedness (o Kappa o Correlazione in casi appropriati) li inviava nel modo GIUSTO - ora attraverso dozzine di campi. Ci sono anche molti articoli validi e pertinenti di altri autori su Kappa e ROC, ma quando usi Kappas contro ROC AUC contro ROC Height (Informedness o Youden ' s J) è chiarito negli articoli del 2012 che elenco (molti degli articoli importanti di altri sono citati in essi). Il papermaker del 2003 deriva per la prima volta una formula di informalità per il caso multiclasse. Il documento del 2013 deriva una versione multiclasse di Adaboost adattata per ottimizzare Informedness (con collegamenti al Weka modificato che lo ospita e lo gestisce).

Riferimenti

1998 Uso attuale delle statistiche nella valutazione dei parser della PNL. J Entwisle, DMW Powers - Atti delle conferenze comuni sui nuovi metodi di elaborazione linguistica: 215-224 https://dl.acm.org/citation.cfm?id=1603935 Citato da 15

2003 Richiamo e precisione contro The Bookmaker. DMW Powers - International Conference on Cognitive Science: 529-534 http://dspace2.flinders.edu.au/xmlui/handle/2328/27159 Citato da 46

Valutazione 2011: dalla precisione, dal richiamo e dalla misura F al ROC, informalità, marcatura e correlazione. Poteri DMW - Journal of Machine Learning Technology 2 (1): 37-63. http://dspace2.flinders.edu.au/xmlui/handle/2328/27165 Citata da 1749

2012 Il problema con Kappa. Poteri DMW - Atti della 13a Conferenza della LCA europea: 345-355 https://dl.acm.org/citation.cfm?id=2380859 Citata da 63

2012 ROC-ConCert: misurazione della coerenza e della certezza basata sui ROC. DMW Powers - Spring Congress on Engineering and Technology (S-CET) 2: 238-241 http://www.academia.edu/download/31939951/201203-SCET30795-ROC-ConCert-PID1124774.pdf Citato da 5

2013 ADABOOK & MULTIBOOK:: Boostering adattivo con correzione delle probabilità. DMW Powers- ICINCO International Conference on Informatics in Control, Automation and Robotics http://www.academia.edu/download/31947210/201309-AdaBook-ICINCO-SCITE-Harvard-2upcor_poster.pdf

https://www.dropbox.com/s/artzz1l3vozb6c4/weka.jar (goes into Java Class Path)
https://www.dropbox.com/s/dqws9ixew3egraj/wekagui   (GUI start script for Unix)
https://www.dropbox.com/s/4j3fwx997kq2xcq/wekagui.bat  (GUI shortcut on Windows)

Citato da 4


> "L'area sotto la curva rappresenta la classifica o la probabilità di una corretta classificazione a coppie" Immagino che sia esattamente dove non siamo d'accordo - il ROC dimostra solo la qualità della classifica nella trama . Tuttavia, con AUC PR è un singolo numero che mi dice immediatamente se quale classifica è preferibile (cioè, quel risultato I è preferibile al risultato II). L'AUC ROC non ha questa proprietà.
FNL

Il risultato della dominazione cita significa che QUANDO DEFINITO, Se una curva domina in ROC, lo fa in PR e viceversa, e questo significa che ha anche un'area più alta in entrambi, e quindi non vi è alcuna differenza qualitativa tra ROC e PR AUC. La citazione su Classificazione (Mann-Whitney U) è una probabilità di risultato quantitativa ben consolidata (parte di un test di significatività) che è stata raccomandata in modo abbastanza indipendente da ROC, ma è stata successivamente trovata come AUC ROC. Allo stesso modo, l'informalità è stata originariamente definita in modo indipendente e in seguito ha dimostrato di corrispondere all'altezza del punto operativo del ROC. PR non ha tali risultati.
David MW si accende il

1
Come ho detto prima, si tratta solo di ridimensionare in condizioni di dominio ("molto più grande" perché moltiplicato per un gran numero come spiego in dettaglio), ma in condizioni di non dominio AUC PR è fuorviante e AUC ROC è quello che ha un'interpretazione probabilistica appropriata (Mann-Whitney U o Classificazione), con il singolo caso operativo corrispondente a Gini (o equivalente a J o Informedness di Youden, dopo il ridimensionamento).
David MW si accende il

1
Se consideriamo il singolo punto operativo (SOC) AUC per semplicità, allora Gini Coefficiente = AUC = (TP / RP + TN / RN) / 2 e Informedness = Youden J = TP / RP + TN / RN - 1 = Sensibilità + Specificità -1 = TPR + TNF -1 = Richiamo + Richiamo inverso - 1 ecc. Massimizzare uno dei due è equivalente, ma quest'ultimo è la probabilità di una decisione informata (volutamente quella sbagliata se -ve). Se RN e TN vanno entrambi all'infinito con TN >> FP, allora TN / RN -> 1 e annulla così Informedness = Richiama nei casi citati. Se invece l'enorme classe è RP e TP >> FN, allora TP / RP -> 1 e Informedness = Richiamo inverso. Vedi rif.
David MW si accende il

1
Questa è una risposta molto utile David Powers. Ma perdona la mia ignoranza, quando dici: "In generale, non è necessario utilizzare la curva di compromesso PR e puoi semplicemente ingrandire la curva ROC se sono richiesti dettagli", come posso farlo esattamente e potresti dare di più dettagli su cosa intendi? Questo significa che posso usare una curva ROC in un caso gravemente squilibrato in qualche modo? "Dare un peso maggiore all'FPR o al TPR produrrebbe un punteggio AUC ROC con differenze di risultato maggiori, punto eccellente!" Come faccio quindi con il mio ROC?
Christopher John,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.