Interpretazione dell'area sotto la curva PR


10

Attualmente sto confrontando tre metodi e ho l'accuratezza, auROC e auPR come metriche. E ho i seguenti risultati:

Metodo A - acc: 0.75, auROC: 0.75, auPR: 0.45

Metodo B - acc: 0.65, auROC: 0.55, auPR: 0.40

Metodo C - acc: 0,55, auROC: 0,70, auPR: 0,65

Ho una buona comprensione dell'accuratezza e di auROC (per ricordare bene provo spesso a trovare una frase come "auROC = caratterizza la capacità di prevedere bene la classe positiva", sebbene non sia esattamente corretto mi aiuta a ricordare). Non ho mai avuto dati auPR prima e mentre capisco come sono costruiti non riesco ad avere la "sensazione" dietro di essi.

In realtà non riesco a capire perché il metodo C abbia un punteggio incredibilmente alto per auPR pur essendo cattivo / medio per l'accuratezza e auPR.

Se qualcuno potesse aiutarmi a capirlo un po 'meglio con una semplice spiegazione sarebbe davvero grandioso. Grazie.

Risposte:


11

Un asse delle curve ROC e PR è lo stesso, ovvero il TPR: quanti casi positivi sono stati classificati correttamente tra tutti i casi positivi nei dati.

L'altro asse è diverso. Il ROC utilizza l'FPR, ovvero quanti sono stati dichiarati erroneamente positivi tra tutti i negativi nei dati. La curva PR utilizza la precisione: quanti veri positivi tra tutti sono stati previsti come positivi. Quindi la base del secondo asse è diversa. ROC utilizza ciò che è nei dati, PR utilizza come base ciò che è nella previsione.

Si ritiene che la curva PR sia più informativa quando c'è uno squilibrio di alta classe nei dati, vedere questo documento http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf .


1
Per auROC 0,5 è il minimo (perché meno sarebbe meglio invertendo la previsione). Esistono regole simili con auPR? Anche riguardo alle mie misurazioni: cosa posso affermare guardando i punteggi del Metodo C? Poiché sto lavorando con lo stesso set di dati nei 3 casi e dal mio punto di vista per un set di dati con una distribuzione più o meno uniforme tra le classi, non avrebbe senso che auROC e auPR non seguano lo stesso ranking per il mio metodi.
AdrienNK,

1
qual è il punteggio del classificatore casuale in auPR? So che è 0,5 in auROC ma non riesco a saperlo in auPR.
Jack Twain,

9
Il punteggio auPR atteso per un classificatore casuale è solo la proporzione di casi positivi positivi nel set di dati. Questa è la precisione che ti aspetteresti se dovessi indovinare la classe e otterrai quella precisione per tutti i livelli di richiamo. Quindi la curva PR prevista per un classificatore casuale è solo un rettangolo con lunghezze laterali "proporzione di veri positivi" x 1. Ad esempio, se il tuo set di dati contiene 10% di casi positivi e 90% di casi negativi, il auPR previsto sotto la probabilità è 0,1.
Lizzie Silver,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.