Perché utilizzare il punteggio Gini normalizzato invece dell'AUC come valutazione?


14

La competizione di Kaggle La previsione del pilota sicuro di Porto Seguro utilizza il punteggio Gini normalizzato come metrica di valutazione e questo mi ha incuriosito sulle ragioni di questa scelta. Quali sono i vantaggi dell'utilizzo del punteggio gini normalizzato anziché delle metriche più comuni, come l'AUC, per la valutazione?


1
Il sito Web di Kaggle aveva questa risposta: "Esiste un'area massima raggiungibile per un modello" perfetto "poiché non tutti gli esempi positivi si verificano immediatamente. Usiamo il coefficiente Gini normalizzato dividendo il coefficiente Gini del modello per il coefficiente Gini del modello perfetto ". ma non è più disponibile. webcache.googleusercontent.com/…
Sesto Empirico

1
Quindi, gini è solo auc su una scala diversa. Oppure auc e gini sono applicati a diverse curve? Questo non mi è chiaro come non esperto nell'apprendimento automatico. La domanda non è molto chiara al riguardo.
Sesto Empirico

Risposte:


3

gionio=2×UNUC-1

6
Inoltre, l'uso del coefficiente gini imposta le prestazioni di un classificatore casuale su un punteggio di 0 ... la normalizzazione "migliora" l'altra estremità della scala e fa sì che il punteggio di un classificatore perfetto sia uguale a 1 anziché a un massimo raggiungibile AUC <1. Il miglioramento è relativo solo a seconda che tu pensi che una scala più intuitiva sia buona o meno. Sebbene al di là di questa più semplice interpretazione si potrebbe sostenere che essa (la normalizzazione) migliora anche la generalizzazione e il confronto di diversi set di dati.
Sesto Empirico

Perché la AUC ottenibile con macimum dovrebbe essere inferiore a 1, inoltre non vedo come Gini la sta impostando su 1?
rep_ho,

Dipende dal tipo di curva che calcolano il coefficiente di gini. Forse usano qualcosa di diverso da una curva ROC (il cui AUC massimo sarebbe effettivamente 1). Date le parole sul sito Web di Kaggle, sembra plausibile che l'AUC massima non sia 1:> "Passiamo quindi da sinistra a destra, chiedendo" Nell'estrema% di dati x più a sinistra, quanta parte della risposta cumulativa hai accumulato? "
Sesto Empirico

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.