Qual è la differenza in ciò che l'AIC e la statistica c (AUC) misurano effettivamente per l'adattamento del modello?


29

Akaike Information Criterion (AIC) e la statistica c (area sotto la curva ROC) sono due misure di adattamento del modello per la regressione logistica. Ho difficoltà a spiegare cosa sta succedendo quando i risultati delle due misure non sono coerenti. Immagino che stiano misurando aspetti leggermente diversi dell'adattamento del modello, ma quali sono quegli aspetti specifici?

Ho 3 modelli di regressioni logistiche. Il modello M0 ha alcune covariate standard. Il modello M1 aggiunge X1 a M0; il modello M2 aggiunge X2 a M0 (quindi M1 e M2 non sono nidificati).

La differenza in AIC da M0 a M1 e M2 è di circa 15, indicando che X1 e X2 migliorano entrambi l'adattamento del modello e di circa la stessa quantità.

le c-statistiche sono: M0, 0,70; M1, 0,73; M2 0,72. La differenza nella statistica c da M0 a M1 è significativa (metodo di DeLong et al 1988), ma la differenza da M0 a M2 non è significativa, indicando che X1 migliora l'adattamento del modello, ma X2 no.

X1 non viene regolarmente raccolto. Si suppone che X2 venga regolarmente raccolto ma manca in circa il 40% dei casi. Vogliamo decidere se iniziare a raccogliere X1 o migliorare la raccolta di X2 o eliminare entrambe le variabili.

Dall'AIC concludiamo che le variabili apportano miglioramenti simili al modello. Probabilmente è più facile migliorare la raccolta di X2 piuttosto che iniziare a raccogliere una variabile completamente nuova (X1), quindi mireremmo a migliorare la raccolta di X2. Ma dalla statistica c, X1 migliora il modello e X2 no, quindi dovremmo dimenticare X2 e iniziare a raccogliere X1.

Poiché la nostra raccomandazione dipende dalla statistica su cui ci concentriamo, dobbiamo comprendere chiaramente la differenza in ciò che stanno misurando.

Qualche consiglio benvenuto.

Risposte:


25

AIC e c-statistica stanno cercando di rispondere a diverse domande. (Anche alcuni problemi con la statistica c sono stati sollevati negli ultimi anni, ma ne tratterò questo a parte)

In parole povere:

  • AIC ti sta dicendo quanto è adatto il tuo modello per un costo specifico di classificazione errata.
  • L'AUC ti sta dicendo quanto bene funzionerebbe il tuo modello, in media, su tutti i costi di classificazione errata.

Quando calcolate l'AIC, trattate la vostra logistica dando una previsione di dire 0.9 come una previsione di 1 (cioè più probabilmente 1 di 0), tuttavia non è necessario. Potresti prendere il tuo punteggio logistico e dire "tutto sopra 0,95 è 1, tutto sotto è 0". Perché dovresti farlo? Bene, questo ti garantirebbe di prevederne uno solo quando sei davvero molto fiducioso. Il tuo tasso di falsi positivi sarà davvero molto basso, ma il tuo falso negativo salirà alle stelle. In alcune situazioni questa non è una brutta cosa - se hai intenzione di accusare qualcuno di frode, probabilmente vorrai prima essere davvero sicuro. Inoltre, se è molto costoso seguire i risultati positivi, non ne vuoi troppi.

Questo è il motivo per cui si riferisce ai costi. C'è un costo quando classifichi un 1 come 0 e un costo quando classifichi uno 0 come 1. In genere (supponendo che tu abbia utilizzato un'impostazione predefinita) l'AIC per la regressione logistica si riferisce al caso speciale quando entrambe le classificazioni errate sono uguali costoso. Cioè, la regressione logistica ti dà il miglior numero complessivo di previsioni corrette, senza alcuna preferenza per positivo o negativo.

La curva ROC viene utilizzata perché rappresenta il vero positivo rispetto al falso positivo al fine di mostrare come si comporterebbe il classificatore se lo si utilizzasse con requisiti di costo diversi. La statistica c si verifica perché qualsiasi curva ROC che si trova rigorosamente al di sopra di un'altra è chiaramente un classificatore dominante. È quindi intuitivo misurare l'area sotto la curva come misura della validità complessiva del classificatore.

Quindi, fondamentalmente, se conosci i tuoi costi per il montaggio del modello, usa AIC (o simile). Se stai solo costruendo un punteggio, ma non specificando la soglia diagnostica, sono necessari approcci AUC (con il seguente avvertimento sull'AUC stesso).

Cosa c'è di sbagliato in c-statistic / AUC / Gini?

Per molti anni l'AUC è stato l'approccio standard ed è ancora ampiamente utilizzato, tuttavia ci sono una serie di problemi. Una cosa che lo ha reso particolarmente attraente è che corrisponde a un test Wilcox sui ranghi delle classificazioni. Cioè ha misurato la probabilità che il punteggio di un membro scelto casualmente di una classe sia superiore a un membro scelto casualmente dell'altra classe. Il problema è che non è quasi mai una metrica utile.

I problemi più critici con l'AUC sono stati pubblicizzati da David Hand qualche anno fa. (Vedi i riferimenti sotto) Il punto cruciale del problema è che mentre l'AUC fa la media su tutti i costi, poiché l'asse x della curva ROC è False Positive Rate, il peso che assegna ai diversi regimi di costo varia tra i classificatori. Quindi, se calcoli l'AUC su due diverse regressioni logitiche, non misurerà "la stessa cosa" in entrambi i casi. Ciò significa che ha poco senso confrontare i modelli basati su AUC.

Hand ha proposto un calcolo alternativo utilizzando una ponderazione dei costi fissi e ha chiamato questa misura H - esiste un pacchetto in R chiamato hmeasureche eseguirà questo calcolo e credo che l'AUC sia comparata.

Alcuni riferimenti sui problemi con l'AUC:

  • Quando l'area sotto la curva caratteristica operativa del ricevitore è una misura adeguata delle prestazioni del classificatore? DJ Hand, C. Anagnostopoulos Pattern Recognition Letters 34 (2013) 492–495

    (Ho trovato questa una spiegazione particolarmente accessibile e utile)


2
Ed ecco un altro articolo di DJ Hand: Misurare le prestazioni del classificatore: un'alternativa coerente all'area sotto la curva ROC , Machine Learning (2009) 77: 103–123.
chl

Era quello che stavo cercando - sì, è stato il primo articolo chiave su questo (anche se penso che di conseguenza sia destinato a un pubblico più tecnico rispetto ad alcuni degli articoli successivi).
Corone

3
R2

Sono confuso dalla risposta di Corone, pensavo che l'AIC non avesse nulla a che fare con le prestazioni predittive di un modello e che fosse solo una misura della probabilità dei dati scambiati con la complessità del modello.
Zhubarb,

@Berkan non sei sicuro di cosa intendi per "nulla a che fare con le prestazioni predittive", a meno che tu non intenda semplicemente che si tratta di una misura nel campione non fuori dal campione? (Migliore è la probabilità, meglio "prevede" quei punti dati). Il punto è che l'AIC è per una specifica funzione di probabilità prescelta, mentre l'AIC è una media su un set di essi. Se conosci la probabilità (es. Soglia, costi, prevalenza ...) allora puoi usare AIC.
Corone,

3

Il documento Hand citato non ha alcuna base nell'uso nel mondo reale nella diagnostica clinica. Ha una curva teorica con 0,5 AUC, che è invece un classificatore perfetto. Usa un unico set di dati del mondo reale, in cui i modelli verrebbero buttati via di mano, dato che sono così cattivi, e quando si tiene conto degli intervalli di confidenza attorno alle misurazioni (dati non forniti ma dedotti) è probabile che siano casuali . Data la mancanza di dati del mondo reale (o persino di una simulazione plausibile), si tratta di un documento vuoto. Personalmente sono stato coinvolto nell'analisi di migliaia di classificatori tra migliaia di pazienti (con sufficienti gradi di libertà). In quel contesto, i suoi argomenti sono insensati.

È anche incline ai superlativi (non un buon segno in qualsiasi contesto) e fa generalizzazioni non supportate, ad esempio i costi non possono essere conosciuti. In medicina, ci sono costi accettati, come un valore predittivo positivo del 10% per i test di screening e $ 100.000 per anno di vita adeguato alla qualità per interventi terapeutici. Trovo difficile credere che nel calcolo del merito di credito, i costi non siano ben compresi. Se sta dicendo (in modo poco chiaro) che singoli falsi positivi e falsi negativi diversi comportano costi diversi, mentre questo è un argomento molto interessante, non assomiglia. classificatori binari.

Se il suo punto è che la forma del ROC è importante, quindi per gli utenti sofisticati, questo è ovvio e gli utenti non sofisticati hanno molto di più di cui preoccuparsi, ad esempio, incorporando la prevalenza in valori predittivi positivi e negativi.

Infine, non riesco a capire come i diversi classificatori non possano essere giudicati in base ai vari limiti del mondo reale determinati dall'uso clinico (o finanziario) dei modelli. Ovviamente, per ogni modello sarebbero stati scelti diversi tagli. I modelli non sarebbero stati confrontati basandosi solo su AUC. I classificatori non contano, ma la forma della curva lo fa.


-1

Per me, la linea di fondo è che mentre la statistica C (AUC) può essere problematica quando si confrontano modelli con diverse variabili indipendenti (analoga a quella che la mano chiama "classificatori"), è comunque utile in altre applicazioni. Ad esempio, studi di validazione in cui lo stesso modello viene confrontato tra diverse popolazioni di studio (set di dati). Se un modello o un indice / punteggio di rischio risultano altamente discriminanti in una popolazione, ma non in altre, ciò potrebbe indicare che non è uno strumento molto buono in generale, ma può essere in casi specifici.


3
R2
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.