Scelta tra le funzioni di perdita per la classificazione binaria

Lavoro in un settore problematico in cui le persone segnalano spesso ROC-AUC o AveP (precisione media). Tuttavia, recentemente ho trovato documenti che ottimizzano invece la perdita di log , mentre altri ancora riportano la perdita di cerniera .

Mentre capisco come vengono calcolate queste metriche, sto facendo fatica a capire i compromessi tra loro e che è buono per cosa esattamente.

Quando si tratta di ROC-AUC vs Precision-Recall, questo thread discute come la massimizzazione di ROC-AUC può essere vista come usando un criterio di ottimizzazione delle perdite che penalizza "classificare un vero negativo almeno grande quanto un vero positivo" (supponendo che i punteggi corrispondono ai positivi). Inoltre, questo altro thread fornisce anche un'utile discussione di ROC-AUC in contrasto con le metriche di Richiamo di precisione .

Tuttavia, per quale tipo di problemi sarebbe preferibile la perdita di registro rispetto, per esempio, ROC-AUC , AveP o la perdita di cerniera ? Ancora più importante, quali tipi di domande si dovrebbero porre sul problema quando si sceglie tra queste funzioni di perdita per la classificazione binaria?

loss-functions

— Josh
fonte

Il riferimento all'avanguardia in materia è [1]. In sostanza, mostra che tutte le funzioni di perdita specificate convergeranno nel classificatore Bayes, con tassi rapidi.

La scelta tra questi per campioni finiti può essere guidata da diversi argomenti:

Se si desidera recuperare le probabilità di eventi (e non solo le classificazioni), la perdita logaritmica o qualsiasi altro modello lineare generalizzato (regressione Probit, regressione logaritmico complementare, ...) è un candidato naturale.
Se si punta solo alla classificazione, la SVM può essere una scelta preferita, poiché si rivolge solo alle osservazioni sulla classificazione secondaria, e ignora l'osservazione distante, alleviando così l'impatto della veridicità del modello lineare ipotizzato.
Se non si hanno molte osservazioni, il vantaggio in 2 potrebbe essere uno svantaggio.
Potrebbero esserci differenze computazionali: sia nel problema di ottimizzazione dichiarato, sia nella particolare implementazione che stai utilizzando.
In conclusione, puoi semplicemente provarli tutti e scegliere il migliore.

[1] Bartlett, Peter L, Michael I Jordan e Jon D McAuliffe. "Convessità, classificazione e limiti di rischio". Journal of American Statistical Association 101, n. 473 (marzo 2006): 138–56. DOI: 10,1198 / 016214505000000907.

— JohnRos
fonte