Mi occupo di un problema di rilevamento delle frodi (simile al credit scoring). Pertanto, esiste una relazione fortemente squilibrata tra osservazioni fraudolente e non fraudolente.
http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html offre un'ottima panoramica delle diverse metriche di classificazione. Precision and Recallo kappaentrambi sembrano essere una buona scelta:
Un modo per giustificare i risultati di tali classificatori è confrontarli con quelli dei classificatori di base e dimostrare che sono effettivamente migliori delle previsioni casuali.
A quanto ho capito, kappapotrebbe essere la scelta leggermente migliore qui, poiché si tiene conto della possibilità casuale . Dal kappa di Cohen in un inglese semplice capisco che si kappaoccupa del concetto di guadagno di informazioni:
[...] un'accuratezza osservata dell'80% è molto meno impressionante con un'accuratezza attesa del 75% rispetto a un'accuratezza attesa del 50% [...]
Pertanto, le mie domande sarebbero:
- È corretto supporre
kappache sia una metrica di classificazione più adatta a questo problema? - Il semplice utilizzo
kappaimpedisce gli effetti negativi dello squilibrio sull'algoritmo di classificazione? Il ri-campionamento o l'apprendimento basato sui costi (vedi http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf ) è ancora necessario?