Diverse definizioni AIC


12

Da Wikipedia esiste una definizione di Information Criterion (AIC) di Akaike come , dove è il numero di parametri e è la probabilità logaritmica del modello.AIC=2k2logLlog LklogL

Tuttavia, le nostre note di Econometria presso un'università molto rispettata affermano che . Qui è la varianza stimata per gli errori in un modello ARMA e è il numero di osservazioni nel set di dati delle serie temporali.σ 2TAIC=log(σ^2)+2kTσ^2T

Quest'ultima definizione è equivalente alla prima, ma è semplicemente sintonizzata per i modelli ARMA? O esiste una sorta di conflitto tra le due definizioni?


3
Per la cronaca: criterio singolare, criteri plurale. (Modificato di conseguenza.)
Nick Cox,

Risposte:


15

La formula che citi dalle tue note non è esattamente AIC.

AIC è .2logL+2k

Qui darò uno schema di una derivazione approssimativa che chiarisce abbastanza cosa sta succedendo.

Se hai un modello con errori normali indipendenti con varianza costante,

Lσne12σ2εi2

che può essere stimato con la massima probabilità come

(σ^2)n/2e12nσ^2/σ^2(σ^2)n/2e12n(σ^2)n/2

(supponendo che la stima di sia la stima ML)σ2

Quindi (fino allo spostamento di una costante)2logL+2k=nlogσ^2+2k

Ora nel modello ARMA, se è davvero grande rispetto a e , allora la probabilità può essere approssimata da un tale quadro gaussiano (ad esempio puoi scrivere l'ARMA approssimativamente come un AR più lungo e condizionare a condizioni sufficienti per scrivere quell'AR come modello di regressione), quindi con al posto di :TpqTn

AICTlogσ^2+2k

quindi

AIC/Tlogσ^2+2k/T

Ora, se stai semplicemente confrontando AIC, quella divisione per non ha alcuna importanza, dal momento che non cambia l'ordine dei valori AIC.T

Tuttavia, se stai usando AIC per qualche altro scopo che si basa sul valore effettivo delle differenze in AIC (come fare l'inferenza multimodel come descritto da Burnham e Anderson), allora è importante.

Numerosi testi di econometria sembrano utilizzare questo modulo AIC / T. Stranamente, alcuni libri sembrano fare riferimento a Hurvich e Tsai 1989 o Findley 1985 per quel modulo, ma Hurvich & Tsai e Findley sembrano discutere della forma originale (anche se ho solo un'indicazione indiretta di ciò che Findley fa in questo momento, quindi forse c'è qualcosa in Findley su di esso).

Tale ridimensionamento potrebbe essere fatto per una serie di ragioni - ad esempio, le serie temporali, in particolare le serie temporali ad alta frequenza, possono essere molto lunghe e gli AIC ordinari potrebbero avere la tendenza a diventare ingombranti, specialmente se è molto piccolo. (Ci sono alcune altre possibili ragioni, ma dal momento che davvero non conosco la ragione per cui ciò è stato fatto, non inizierò a scendere un elenco di tutte le possibili ragioni.)σ2

Potresti dare un'occhiata all'elenco di fatti e fallimenti dell'AIC di Rob Hyndman , in particolare i punti da 3 a 7. Alcuni di questi punti potrebbero portarti ad essere almeno un po 'cauto nel fare troppo affidamento sull'approssimazione della probabilità gaussiana, ma forse c'è una giustificazione migliore di quella che offro qui.

Non sono sicuro che ci sia una buona ragione per usare questa approssimazione alla probabilità logaritmica piuttosto che all'AIC reale poiché molti pacchetti di serie temporali oggigiorno tendono a calcolare (/ massimizzare) la verosimiglianza effettiva per i modelli ARMA. Sembra che ci siano poche ragioni per non usarlo.


1
Prima o poi, ogni discussione su qualsiasi * IC si trasforma in "Questo è il criterio che dovresti usare, tranne per il fatto che spesso dà la risposta sbagliata in circostanze del genere". Solo essere ironico, per nulla critico di una risposta tipicamente utile. Questo è proprio come nella vita reale, in cui una massima generica come "ama tutti" di solito deve essere temporaneamente annullata da altri consigli se qualcuno sta cercando di picchiarti o derubarti.
Nick Cox,

1
@Nick Non sono infastidito dai testi che usano AIC / piuttosto che AIC, ma ciò che mi preoccupa è che così tanti libri di econometria che ho visto lo chiamano semplicemente "AIC" senza alcun commento . Per me è irresponsabilmente irresponsabile. Chiunque fosse stato il primo a farlo, ma non a dirlo, è stato copiato più volte. n
Glen_b -Restate Monica

2

Credo che questo si basi sul presupposto di errori normali. In econometria, operi usando asintotici, specialmente nelle applicazioni di serie temporali che usano AIC. Di conseguenza, l'assunzione normale dovrebbe essere asintotica per giustificare questo schema di selezione del modello (asintotico).

Ricordiamo che il logaritmo della verosimiglianza normale è , dove utilizziamo e se i tuoi dati sono tratti da X. Di seguito trascuriamo il primo termine, come il campione osservato non lo influenza.ln(L)=(T/2)ln(2π)(T/2)ln(σ2)(1/2σ2)(xiμ)E(X)=μVar(X)=σ2x1,...,xT

Usa semplicemente la formula più generale (prima) e collega per la normale probabilità. Il primo termine può essere ignorato (è una costante indipendentemente dalla scelta del regressore). Il secondo termine diventa . Il terzo termine diventa , dove abbiamo usato . Ancora una volta, non usare una correzione del campione finita è giustificato qui perché questo stimatore è valido asintoticamente solo se gli errori non sono normali. Dato che non conosciamo , dobbiamo stimare il terzo termine come = T.T l n ( σ 2LTln(σ2)(1/σ2)(Tσ^2)σ^2=T1(xix¯)σ2(1/σ2)(Tσ^2)=(1/σ^2)(Tσ^2)

In sintesi, ciò significa che otteniamo per la normale probabilità che . Inutile dire che la minimizzazione non viene influenzata ignorando la costante . Il termine è ora semplicemente diviso da , poiché non cambia il problema di minimizzazione per adattare tutti componenti additivi da . Questo ti porta al secondo risultato, perché e sono identici ai fini della minimizzazione.1 T T A I C A I C / TAIC=2k+Tln(σ2)+11TTAICAIC/T

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.