AIC e c-statistica stanno cercando di rispondere a diverse domande. (Anche alcuni problemi con la statistica c sono stati sollevati negli ultimi anni, ma ne tratterò questo a parte)
In parole povere:
- AIC ti sta dicendo quanto è adatto il tuo modello per un costo specifico di classificazione errata.
- L'AUC ti sta dicendo quanto bene funzionerebbe il tuo modello, in media, su tutti i costi di classificazione errata.
Quando calcolate l'AIC, trattate la vostra logistica dando una previsione di dire 0.9 come una previsione di 1 (cioè più probabilmente 1 di 0), tuttavia non è necessario. Potresti prendere il tuo punteggio logistico e dire "tutto sopra 0,95 è 1, tutto sotto è 0". Perché dovresti farlo? Bene, questo ti garantirebbe di prevederne uno solo quando sei davvero molto fiducioso. Il tuo tasso di falsi positivi sarà davvero molto basso, ma il tuo falso negativo salirà alle stelle. In alcune situazioni questa non è una brutta cosa - se hai intenzione di accusare qualcuno di frode, probabilmente vorrai prima essere davvero sicuro. Inoltre, se è molto costoso seguire i risultati positivi, non ne vuoi troppi.
Questo è il motivo per cui si riferisce ai costi. C'è un costo quando classifichi un 1 come 0 e un costo quando classifichi uno 0 come 1. In genere (supponendo che tu abbia utilizzato un'impostazione predefinita) l'AIC per la regressione logistica si riferisce al caso speciale quando entrambe le classificazioni errate sono uguali costoso. Cioè, la regressione logistica ti dà il miglior numero complessivo di previsioni corrette, senza alcuna preferenza per positivo o negativo.
La curva ROC viene utilizzata perché rappresenta il vero positivo rispetto al falso positivo al fine di mostrare come si comporterebbe il classificatore se lo si utilizzasse con requisiti di costo diversi. La statistica c si verifica perché qualsiasi curva ROC che si trova rigorosamente al di sopra di un'altra è chiaramente un classificatore dominante. È quindi intuitivo misurare l'area sotto la curva come misura della validità complessiva del classificatore.
Quindi, fondamentalmente, se conosci i tuoi costi per il montaggio del modello, usa AIC (o simile). Se stai solo costruendo un punteggio, ma non specificando la soglia diagnostica, sono necessari approcci AUC (con il seguente avvertimento sull'AUC stesso).
Cosa c'è di sbagliato in c-statistic / AUC / Gini?
Per molti anni l'AUC è stato l'approccio standard ed è ancora ampiamente utilizzato, tuttavia ci sono una serie di problemi. Una cosa che lo ha reso particolarmente attraente è che corrisponde a un test Wilcox sui ranghi delle classificazioni. Cioè ha misurato la probabilità che il punteggio di un membro scelto casualmente di una classe sia superiore a un membro scelto casualmente dell'altra classe. Il problema è che non è quasi mai una metrica utile.
I problemi più critici con l'AUC sono stati pubblicizzati da David Hand qualche anno fa. (Vedi i riferimenti sotto) Il punto cruciale del problema è che mentre l'AUC fa la media su tutti i costi, poiché l'asse x della curva ROC è False Positive Rate, il peso che assegna ai diversi regimi di costo varia tra i classificatori. Quindi, se calcoli l'AUC su due diverse regressioni logitiche, non misurerà "la stessa cosa" in entrambi i casi. Ciò significa che ha poco senso confrontare i modelli basati su AUC.
Hand ha proposto un calcolo alternativo utilizzando una ponderazione dei costi fissi e ha chiamato questa misura H - esiste un pacchetto in R chiamato hmeasure
che eseguirà questo calcolo e credo che l'AUC sia comparata.
Alcuni riferimenti sui problemi con l'AUC:
Quando l'area sotto la curva caratteristica operativa del ricevitore è una misura adeguata delle prestazioni del classificatore? DJ Hand, C. Anagnostopoulos Pattern Recognition Letters 34 (2013) 492–495
(Ho trovato questa una spiegazione particolarmente accessibile e utile)