Direi che almeno quando discutiamo di modelli lineari (come i modelli AR), e AIC regolati non sono così diversi.R2
Considera la domanda se debba essere incluso in
y = X 1 ( n × K 1 ) β 1 + X 2 ( n × K 2 ) β 2 + ϵ
Ciò equivale a confrontare i modelli
M 1X2
y=X1(n×K1)β1+X2(n×K2)β2+ϵ
dove
E(u|X1,X2)=0. Diciamo che
M2è il
vero modellose
β2≠0. Notare che
M1⊂M2. I modelli sono quindi
nidificati. Una procedura di selezione del modello
MM1M2::y=X1β1+uy=X1β1+X2β2+u,
E(u|X1,X2)=0M2β2≠0M1⊂M2Mˆ è una regola dipendente dai dati che seleziona il più plausibile di diversi modelli.
Mˆ
limn→∞P(Mˆ=M1|M1)limn→∞P(Mˆ=M2|M2)==11
Considerare . Cioè, scegli if . Poiché sta diminuendo monotonicamente in , questa procedura equivale a minimizzare . A sua volta, questo equivale a minimizzare . Per sufficientemente grande , quest'ultimo può essere scritto come
doveR2M1R¯21>R¯22R¯2s2s2log(s2)n
log(s2)==≈≈log(σˆ2nn−K)log(σˆ2)+log(1+Kn−K)log(σˆ2)+Kn−Klog(σˆ2)+Kn,
σˆ2è lo stimatore ML della varianza dell'errore. La selezione del modello basata su equivale quindi asintoticamente alla scelta del modello con il più piccolo
. Questa procedura è incoerente.
R¯2log(σˆ2)+K/n
Proposta :
limn→∞P(R¯21>R¯22|M1)<1
Prova :
dove segue la penultima riga perché la statistica è la statistica LR nel caso di regressione lineare che segue un asintotico distribuzione nulla. QED
P(R¯21>R¯22|M1)≈=≈=→<P(log(s21)<log(s22)|M1)P(nlog(s21)<nlog(s22)|M1)P(nlog(σˆ21)+K1<nlog(σˆ22)+K1+K2|M1)P(n[log(σˆ21)−log(σˆ22)]<K2|M1)P(χ2K2<K2)1,
χ2K2
Consideriamo ora il criterio di Akaike,
Pertanto, l'AIC scambia anche la riduzione dell'SSR implicita da regressori aggiuntivi con il "termine di penalità , "che punta nella direzione opposta. Quindi, scegli se
, altrimenti seleziona .
AIC=log(σˆ2)+2Kn
M1AIC1<AIC2M2
Si può vedere che l' è anche incoerente continuando la precedente prova in linea tre con . L' corretto e l' scelgono quindi il modello "grande" con probabilità positiva, anche se è il modello vero.AICP(nlog(σˆ21)+2K1<nlog(σˆ22)+2(K1+K2)|M1)R2AICM2M1
Poiché la penalità per la complessità in AIC è un po 'più grande di quella per aggiustata , potrebbe essere meno soggetta a sovraelezione. E ha altre belle proprietà (minimizzare la divergenza di KL rispetto al modello vero se questo non è nel set di modelli considerati) che non sono affrontate nel mio post.R2