Perché il criterio informativo (non aggiustato


9

Nei modelli di serie storiche, come ARMA-GARCH, per selezionare il ritardo o l'ordine appropriato del modello vengono utilizzati diversi criteri di informazione, come AIC, BIC, SIC ecc.

La mia domanda è molto semplice, perché non usiamo l' modificato R2per scegliere il modello appropriato? Possiamo selezionare il modello che porta a un valore più elevato di regolato R2. Perché sia ​​il corretto sia il R2criterio di informazione penalizzano il numero aggiuntivo di regressori nel modello, dove prima penalizzano R2 e successivamente penalizzano il valore di probabilità.


Potrei mancare qualcosa nelle risposte (sotto), ma i quadrati R e i quadrati R rettificati sono appropriati per la classe relativamente limitata di modelli stimati OLS, mentre AIC, BIC, ecc. Sono appropriati per la classe più ampia di lineari generalizzati modelli stimati, forse, con ML o una variante.
Mike Hunter,

Risposte:


12

Direi che almeno quando discutiamo di modelli lineari (come i modelli AR), e AIC regolati non sono così diversi.R2

Considera la domanda se debba essere incluso in y = X 1 ( n × K 1 ) β 1 + X 2 ( n × K 2 ) β 2 + ϵ Ciò equivale a confrontare i modelli M 1X2

y=X1(n×K1)β1+X2(n×K2)β2+ϵ
doveE(u|X1,X2)=0. Diciamo cheM2è ilvero modelloseβ20. Notare cheM1M2. I modelli sono quindinidificati. Una procedura di selezione del modello M
M1:y=X1β1+uM2:y=X1β1+X2β2+u,
E(u|X1,X2)=0M2β20M1M2M^ è una regola dipendente dai dati che seleziona il più plausibile di diversi modelli.

M^

limnP(M^=M1|M1)=1limnP(M^=M2|M2)=1

Considerare . Cioè, scegli if . Poiché sta diminuendo monotonicamente in , questa procedura equivale a minimizzare . A sua volta, questo equivale a minimizzare . Per sufficientemente grande , quest'ultimo può essere scritto come doveR2M1R¯12>R¯22R¯2s2s2log(s2)n

log(s2)=log(σ^2nnK)=log(σ^2)+log(1+KnK)log(σ^2)+KnKlog(σ^2)+Kn,
σ^2è lo stimatore ML della varianza dell'errore. La selezione del modello basata su equivale quindi asintoticamente alla scelta del modello con il più piccolo . Questa procedura è incoerente.R¯2log(σ^2)+K/n

Proposta :

limnP(R¯12>R¯22|M1)<1

Prova : dove segue la penultima riga perché la statistica è la statistica LR nel caso di regressione lineare che segue un asintotico distribuzione nulla. QED

P(R¯12>R¯22|M1)P(log(s12)<log(s22)|M1)=P(nlog(s12)<nlog(s22)|M1)P(nlog(σ^12)+K1<nlog(σ^22)+K1+K2|M1)=P(n[log(σ^12)log(σ^22)]<K2|M1)P(χK22<K2)<1,
χK22

Consideriamo ora il criterio di Akaike, Pertanto, l'AIC scambia anche la riduzione dell'SSR implicita da regressori aggiuntivi con il "termine di penalità , "che punta nella direzione opposta. Quindi, scegli se , altrimenti seleziona .

AIC=log(σ^2)+2Kn
M1AIC1<AIC2M2

Si può vedere che l' è anche incoerente continuando la precedente prova in linea tre con . L' corretto e l' scelgono quindi il modello "grande" con probabilità positiva, anche se è il modello vero.AICP(nlog(σ^12)+2K1<nlog(σ^22)+2(K1+K2)|M1)R2AICM2M1

Poiché la penalità per la complessità in AIC è un po 'più grande di quella per aggiustata , potrebbe essere meno soggetta a sovraelezione. E ha altre belle proprietà (minimizzare la divergenza di KL rispetto al modello vero se questo non è nel set di modelli considerati) che non sono affrontate nel mio post.R2


1
Ottima risposta: non troppo pesante ma comunque esatta! Se fosse stato lì ieri, non avrei pubblicato il mio.
Richard Hardy,

Che dire del caso ARMA-GARCH? Come farebbe selezionando i termini MA e GARCH? Radj2
Zachary Blumenfeld,

Non oserei dire. Come spieghi, non è nemmeno chiaro cosa significhi R2 per l'adattamento di un tale modello.
Christoph Hanck,

5

La penalità in non produce le belle proprietà in termini di selezione del modello come postulato da AIC o BIC. La penalità in è sufficiente per rendere uno stimatore imparziale della popolazione quando nessuno dei regressori appartiene effettivamente al modello (secondo i post del blog di Dave Giles "In che senso è il "rettificato" R-quadrato non equilibrato? " e " Altre informazioni sulle proprietà del coefficiente di determinazione "rettificato" ); tuttavia, non è un selettore di modello ottimale. R 2 a d j R 2 a d j R 2 R 2 a d jRadj2Radj2Radj2R2Radj2

(Potrebbe esserci una prova per contraddizione: se AIC è ottimale in un senso e BIC è ottimale in un altro, e non è equivalente a nessuno dei due, allora non è ottimale in nessuno dei due di questi due sensi.) R 2 a d jRadj2Radj2


Quanti parametri GARCH devo aggiungere prima che aumenti? :) .... Credo che un argomento simile potrebbe essere fatto per l'assunzione di errori correlati (come in un modello MA), un modello GLS non riduce la somma dei residui quadrati sui minimi quadrati ordinari. In MA e GARCH, i parametri (variabili non esplicative, per cui è regolato) vengono aggiunti al modello. I parametri MA e GARCH non vengono aggiunti per ridurre , ma vengono nuovamente aggiunti per aumentare la probabilità e / o ridurre una somma ponderata di residui quadrati per riflettere la mancanza di termini di errore iid. R 2 a d j S S RR2R2adjSSR
Zachary Blumenfeld,

Questo in realtà riguarda il post originale o la mia risposta? In ogni caso, sono d'accordo con i tuoi punti.
Richard Hardy,

Quello che stavo cercando di sottolineare è che non può davvero essere usato per selezionare componenti GARCH (e forse anche componenti MA) poiché si basa sulla frazione di su che sono stimatori distorti di varianza quando i termini di errore non sono indicati. (questo è solo un caso specifico del pregiudizio di cui stai parlando). Nel caso di ARMA-GARCH, non si selezionerebbe mai un modello con componenti GARCH, anche se vi fosse una volatilità stocastica nei dati, perché non aumenta . Fondamentalmente, sono d'accordo con te cercando di fornire esempi specifici. S S T - S S R S S T R 2Radj2SSTSSRSSTR2
Zachary Blumenfeld,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.