Relazione tra KS, AUROC e Gini


11

Le statistiche comuni di validazione del modello come il test di Kolmogorov – Smirnov (KS), AUROC e coefficiente di Gini sono tutte funzionalmente correlate. Tuttavia, la mia domanda ha a che fare con la dimostrazione di come siano tutti correlati. Sono curioso di sapere se qualcuno mi può aiutare a dimostrare queste relazioni. Non sono stato in grado di trovare nulla online, ma sono sinceramente interessato a come funzionano le prove. Ad esempio, conosco Gini = 2AUROC-1, ma la mia migliore prova consiste nel puntare a un grafico. Sono interessato a prove formali. Qualsiasi aiuto sarebbe molto apprezzato!


1
Per KS, intendi la statistica di Kolmogorov-Smirnov? AUROC è probabilmente l'area sotto la curva ROC?
Nitesh,

Sembra che partire da Wikipedia e passare attraverso i riferimenti originali sarebbe un buon punto di partenza.
LauriK,

Risposte:


1

La voce di Wikipedia per le caratteristiche operative del ricevitore fa riferimento a questo documento per il risultato Gini = 2AUROC-1: Hand, David J .; e Till, Robert J. (2001); Una semplice generalizzazione dell'area sotto la curva ROC per problemi di classificazione di più classi, Machine Learning, 45, 171–186. Ma temo di non avere facile accesso ad esso per vedere quanto si avvicina a ciò che vuoi.


1
... e potrebbe essere un risultato inutile, in quanto Gini viene solitamente applicato ai dati che hanno due etichette categoriali, mentre AUROC viene applicato ai dati di classificazione numerica + un'etichetta binaria. Essi possono coincidere solo se la classifica è binaria? nel qual caso non avrebbe molto senso usare AUROC perché è una curva a 3 punti con solo 2 gradi di libertà ... (Non ho verificato quel risultato, troppa posta indesiderata su Wikipedia in questi giorni.)
Ha QUIT - Anony-Mousse

0

Secondo l' articolo (Adeodato, PJ L e Melo, SB 2016), esiste una relazione lineare tra l'Area sotto la curva KS (AUKS) e l'Area sotto la curva ROC (AUROC), vale a dire:

UNUROC=0.5+UNUKS

La prova di equivalenza è inclusa nel documento.


0

Il risultato Gini = 2 * AUROC-1 è difficile da dimostrare perché non è necessariamente vero. L'articolo di Wikipedia sulla curva delle caratteristiche operative del ricevitore fornisce il risultato come una definizione di Gini e l'articolo di Hand and Till (citato da nealmcb) afferma semplicemente che la definizione grafica di Gini che utilizza la curva ROC porta a questa formula.

Il trucco è che questa definizione di Gini viene utilizzata nelle comunità di apprendimento automatico e ingegneria, ma una definizione diversa viene utilizzata da economisti e demografi (tornando al documento originale di Gini). L'articolo di Wikipedia sul coefficiente di Gini espone questa definizione, basata sulla curva di Lorenz.

Un articolo di Schechtman & Schechtman (2016) stabilisce il rapporto tra AUC e la definizione originale di Gini. Ma per vedere che non possono essere esattamente gli stessi, supponiamo che la proporzione di eventi sia p e che abbiamo un classificatore perfetto. La curva ROC passa quindi attraverso l'angolo in alto a sinistra e AUCROC è 1. Tuttavia, la curva (capovolta) di Lorenz va da (0,0) a ( p , 1) a (1,1) e il Gini degli economisti è 1 - p / 2, che è quasi ma non esattamente 1.

Se gli eventi sono rari, allora la relazione Gini = 2 * AUROC-1 è quasi ma non esattamente vera usando la definizione originale di Gini. La relazione è esattamente vera solo se Gini viene ridefinito per renderla vera.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.