Come confrontare i modelli sulla base di AIC?


13

Abbiamo due modelli che utilizzano lo stesso metodo per calcolare la probabilità di log e l'AIC per uno è inferiore rispetto all'altro. Tuttavia, quello con l'AIC inferiore è molto più difficile da interpretare.

Abbiamo difficoltà a decidere se vale la pena introdurre la difficoltà e lo abbiamo giudicato usando una differenza percentuale in AIC. Abbiamo scoperto che la differenza tra i due AIC era solo dello 0,7%, con il modello più complicato con un AIC inferiore dello 0,7%.

  1. La bassa differenza percentuale tra i due è un buon motivo per evitare di usare il modello con AIC inferiore?

  2. La percentuale di differenza spiega che lo 0,7% in più di informazioni vengono perse nel modello meno complicato?

  3. I due modelli possono avere risultati molto diversi?



2
@ArunJose, non sembra essere un duplicato. Le domande qui sono abbastanza diverse.
Richard Hardy,

1
No. Questa domanda non riguarda la comparabilità dei modelli. Sappiamo già che i modelli sono comparabili. Questa domanda riguarda ciò che conta come una differenza significativa in AIC e il compromesso tra complessità e adattamento al modello.
Ali Turab Lotia,

Risposte:


25

Uno non confronta i valori assoluti di due AIC (che possono essere come ma anche ), ma considera la loro differenza : dove è l'AIC -th model, e è il più basso AIC che si ottiene tra l'insieme di modelli esaminati (cioè il modello preferito). La regola empirica, delineata ad esempio in Burnham & Anderson 2004 , è:1000000 Δ i = A I C i - A I C m i n , A I C i i A I C m i n1001000000

Δi=AICiAICmin,
AICiiAICmin
  1. se , allora c'è un sostanziale supporto per l' -esimo modello (o l'evidenza contro di essa vale solo una menzione nuda), e la proposizione che sia una descrizione corretta è altamente probabile;iΔi<2i
  2. se , allora c'è un forte supporto per l' -modello;i2<Δi<4i
  3. se , il supporto per l' -esimo modello è notevolmente inferiore ;i4<Δi<7i
  4. i modelli con hanno sostanzialmente alcun supporto.Δi>10

Ora, per quanto riguarda lo 0,7% menzionato nell'interrogazione, considera due situazioni:

  1. AIC1=AICmin=100 e è maggiore dello 0,7%: . Quindi quindi non vi è alcuna differenza sostanziale tra i modelli.AIC2AIC2=100.7Δ2=0.7<2
  2. AIC1=AICmin=100000 e è maggiore dello 0,7%: . Quindi quindi non c'è supporto per il 2 ° modello.AIC2AIC2=100700Δ2=70010

Pertanto, affermando che la differenza tra gli AIC è dello 0,7% non fornisce alcuna informazione.

Il valore AIC contiene costanti di ridimensionamento provenienti dalla probabilità logaritmica e quindi sono privi di tali costanti. Si potrebbe considerare una trasformazione di riscalamento che forza il modello migliore ad avere .LΔiΔi=AICiAICminAICmin:=0

La formulazione di AIC penalizza l'uso di un numero eccessivo di parametri, quindi scoraggia il sovradimensionamento. Preferisce i modelli con meno parametri, a condizione che gli altri non forniscano un adattamento sostanzialmente migliore. L'AIC cerca di selezionare un modello (tra quelli esaminati) che descriva nel modo più adeguato la realtà (nella forma dei dati in esame). Ciò significa che in realtà il modello essendo una vera descrizione dei dati non viene mai considerato. Si noti che AIC fornisce le informazioni su quale modello descrive meglio i dati, non fornisce alcuna interpretazione .

Personalmente , direi che se hai un modello semplice e uno complicato che ha un AIC molto più basso, allora il modello semplice non è abbastanza buono. Se il modello più complesso è davvero molto più complicato ma il non è enorme (forse , forse - dipende dalla situazione particolare) Mi atterrerei al modello più semplice se è davvero più facile lavorare con .ΔiΔi<2Δi<5

Inoltre, è possibile attribuire una probabilità -esimo modello tramitei

pi=exp(Δi2),

che fornisce una probabilità relativa (rispetto ad ) che l' -esimo modello minimizzi l'AIC. Ad esempio, corrisponde a (abbastanza alto) e corrisponde a (abbastanza basso). Il primo caso significa che esiste una probabilità del 47% che l' -esimo modello possa in effetti essere una descrizione migliore rispetto al modello che ha prodotto e nel secondo caso questa probabilità è solo dello 0,05%. i Δ i = 1,5 p i = 0,47 Δ i = 15 p i = 0,0005 i A I C m i nAICminiΔi=1.5pi=0.47Δi=15pi=0.0005iAICmin

Infine, per quanto riguarda la formula per AIC:

AIC=2k2L,

è importante notare che quando si considerano due modelli con simili , dipende esclusivamente dal numero di parametri dovuti al termine . Pertanto, quando , il miglioramento relativo è dovuto all'effettivo miglioramento dell'adattamento, non all'aumento del solo numero di parametri.Δ i 2 k Δ iLΔi2kΔi2Δk<1

TL; DR

  1. È una cattiva ragione; usa la differenza tra i valori assoluti degli AIC.
  2. La percentuale non dice nulla.
  3. Non è possibile rispondere a questa domanda a causa della mancanza di informazioni su modelli, dati e cosa significano risultati diversi .

1
Questa è la spiegazione più chiara che abbia mai visto di questa misteriosa questione. Ho cercato l'articolo a cui hai fatto riferimento (pagg. 270-272) e la tua spiegazione qui è una rappresentazione semplice e chiara ma molto accurata di ciò che l'articolo spiega.
Tripartio,

Potresti forse aiutare con questa domanda di follow-up? stats.stackexchange.com/questions/349883/…
Tripartio
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.