Metriche di classificazione / valutazione per dati altamente squilibrati

22

Mi occupo di un problema di rilevamento delle frodi (simile al credit scoring). Pertanto, esiste una relazione fortemente squilibrata tra osservazioni fraudolente e non fraudolente.

http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html offre un'ottima panoramica delle diverse metriche di classificazione. Precision and Recallo kappaentrambi sembrano essere una buona scelta:

Un modo per giustificare i risultati di tali classificatori è confrontarli con quelli dei classificatori di base e dimostrare che sono effettivamente migliori delle previsioni casuali.

A quanto ho capito, kappapotrebbe essere la scelta leggermente migliore qui, poiché si tiene conto della possibilità casuale . Dal kappa di Cohen in un inglese semplice capisco che si kappaoccupa del concetto di guadagno di informazioni:

[...] un'accuratezza osservata dell'80% è molto meno impressionante con un'accuratezza attesa del 75% rispetto a un'accuratezza attesa del 50% [...]

Pertanto, le mie domande sarebbero:

È corretto supporre kappache sia una metrica di classificazione più adatta a questo problema?
Il semplice utilizzo kappaimpedisce gli effetti negativi dello squilibrio sull'algoritmo di classificazione? Il ri-campionamento o l'apprendimento basato sui costi (vedi http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf ) è ancora necessario?

— Georg Heiler
fonte

il campionamento su / giù dei tuoi dati è qualcosa che dovresti fare quando i dati di allenamento sono sbilanciati e talvolta possono aiutare a impedire ai classificatori di ignorare le classi di minoranza. È inappropriato (e un po 'fraudolento) utilizzare i dati ricampionati durante la valutazione del classificatore: segnalerai una prestazione che il tuo classificatore non ha quando viene applicato su un campione distribuito in modo identico ai dati del test originale.

— user48956

Correlati: stats.stackexchange.com/questions/284515/…

— Anton Tarasenko,

10

Sì, i tuoi presupposti su Kappa sembrano giusti. Kappa come metrica singola e scalare è principalmente e vantaggio rispetto ad altre singole metriche scalari come l'accuratezza, che non rifletterà le prestazioni di previsione di classi più piccole (ombreggiate dalle prestazioni di qualsiasi classe molto più grande). Kappa risolve questo problema in modo più elegante, come hai sottolineato.

L'uso di una metrica come Kappa per misurare le tue prestazioni non aumenterà necessariamente il modo in cui il tuo modello si adatta ai dati. È possibile misurare le prestazioni di qualsiasi modello utilizzando un numero di metriche, ma il modo in cui il modello si adatta ai dati viene determinato utilizzando altri parametri (ad esempio iperparametri). Quindi potresti usare ad esempio Kappa per selezionare il tipo di modello più adatto e l'iperparametrizzazione tra scelte multiple per il tuo problema molto squilibrato - ma il solo calcolo di Kappa stesso non cambierà il modo in cui il tuo modello si adatta ai tuoi dati squilibrati.

Per metriche diverse: oltre a Kappa e precisione / richiamo, dai un'occhiata anche ai tassi di TPR / TNR positivi e reali negativi e alle curve ROC e all'area sotto la curva AUC. Quali di questi sono utili per il tuo problema dipenderanno principalmente dai dettagli del tuo obiettivo. Ad esempio, le diverse informazioni riflesse in TPR / TNR e precisione / richiamo: il tuo obiettivo è avere un'alta percentuale di frodi effettivamente rilevate come tali e un'alta percentuale di transazioni legittime rilevate come tali e / o minimizzare la condivisione di falsi allarmi (che otterrai naturalmente "in massa" con tali problemi) in tutti gli allarmi?

Per up / downsampling: penso che non ci sia una risposta canonica a "se quelli sono richiesti". Sono più un modo per adattare il tuo problema. Tecnicamente: sì, potresti usarli, ma usali con cura, in particolare il upsampling (potresti finire per creare campioni non realistici senza accorgertene) - e tieni presente che cambiare la frequenza dei campioni di entrambe le classi in qualcosa di non realistico "in natura "potrebbe avere effetti negativi anche sulle prestazioni di previsione. Almeno il set di test finale, tenuto in considerazione, dovrebbe rispecchiare nuovamente la frequenza reale dei campioni. In conclusione: ho visto entrambi i casi in cui fare e non fare up / / downsampling ha portato a risultati finali migliori, quindi questo è qualcosa che potresti aver bisogno di provare (ma non manipolare il tuo set di test!) .

— geekoverdose
fonte

Ma un approccio basato sui costi come DOI 10.1109 / ICMLA.2014.48 è più adatto perché viene considerato l'impatto aziendale complessivo?

— Georg Heiler,

15

$TP$ $FP$ $FN$

Punteggio F1 , che è la media armonica di precisione e richiamo .
Misura G , che è la media geometrica di precisione e richiamo . Rispetto alla F1, l'ho trovato un po 'meglio per i dati sbilanciati.
$TP / (TP + FP + FN)$

Nota: per i set di dati non bilanciati, è consigliabile avere una media delle metriche .

— Johnson
fonte

1

Cosa intendi con "migliore" quando ti riferisci a G-measure e all'indice Jaccard?

— Narfanar,

8

Per i set di dati non bilanciati, la metrica della precisione media è talvolta un'alternativa migliore all'AUROC. Il punteggio AP è l'area sotto la curva di richiamo di precisione.

Ecco una discussione con un po 'di codice (Python)

Ecco un documento .

Vedi anche le curve di precisione-richiamo-guadagno di Peter Flach , insieme a una discussione sul difetto delle curve AP.

— user48956
fonte