Perché il criterio informativo (non aggiustato

9

Nei modelli di serie storiche, come ARMA-GARCH, per selezionare il ritardo o l'ordine appropriato del modello vengono utilizzati diversi criteri di informazione, come AIC, BIC, SIC ecc.

La mia domanda è molto semplice, perché non usiamo l' modificato $R^2$ per scegliere il modello appropriato? Possiamo selezionare il modello che porta a un valore più elevato di regolato $R^2$ . Perché sia il corretto sia il $R^2$ criterio di informazione penalizzano il numero aggiuntivo di regressori nel modello, dove prima penalizzano $R^2$ e successivamente penalizzano il valore di probabilità.

— Neeraj
fonte

Potrei mancare qualcosa nelle risposte (sotto), ma i quadrati R e i quadrati R rettificati sono appropriati per la classe relativamente limitata di modelli stimati OLS, mentre AIC, BIC, ecc. Sono appropriati per la classe più ampia di lineari generalizzati modelli stimati, forse, con ML o una variante.

— Mike Hunter,

12

Direi che almeno quando discutiamo di modelli lineari (come i modelli AR), e AIC regolati non sono così diversi. $R^2$

Considera la domanda se debba essere incluso in Ciò equivale a confrontare i modelli $X_2$

y = \underset{(n \times K_{1})}{X_{1}} β_{1} + \underset{(n \times K_{2})}{X_{2}} β_{2} + ϵ

$y=\underset{(n\times K_1)}{X_1}\beta_1+\underset{(n\times K_2)}{X_2}\beta_2+\epsilon$

dove

. Diciamo che

è ilvero modellose

. Notare che

. I modelli sono quindinidificati. Una procedura di selezione del modello

\begin{array}{rcl} M_{1} & : & y = X_{1} β_{1} + u \\ M_{2} & : & y = X_{1} β_{1} + X_{2} β_{2} + u, \end{array}

$\begin{eqnarray*} \mathcal{M}_1&:&y=X_1\beta_1+u\\ \mathcal{M}_2&:&y=X_1\beta_1+X_2\beta_2+u, \end{eqnarray*}$

E (u | X_{1}, X_{2}) = 0

$E(u|X_1,X_2)=0$

M_{2}

$\mathcal{M}_2$

β_{2} \neq 0

$\beta_2\neq0$

M_{1} \subset M_{2}

$\mathcal{M}_1\subset\mathcal{M}_2$

\hat{M}

$\widehat{\mathcal{M}}$ è una regola dipendente dai dati che seleziona il più plausibile di diversi modelli.

$\widehat{\mathcal{M}}$

\begin{array}{rcl} lim_{n \to \infty} P (\hat{M} = M_{1} | M_{1}) & = & 1 \\ lim_{n \to \infty} P (\hat{M} = M_{2} | M_{2}) & = & 1 \end{array}

$\begin{eqnarray*} \lim_{n\rightarrow\infty}P\bigl(\widehat{\mathcal{M}}=\mathcal{M}_1|\mathcal{M}_1\bigr)&=&1\\ \lim_{n\rightarrow\infty}P\bigl(\widehat{\mathcal{M}}=\mathcal{M}_2|\mathcal{M}_2\bigr)&=&1 \end{eqnarray*}$

Considerare . Cioè, scegli if . Poiché sta diminuendo monotonicamente in , questa procedura equivale a minimizzare . A sua volta, questo equivale a minimizzare . Per sufficientemente grande , quest'ultimo può essere scritto come dove $R^2$ $\mathcal{M}_1$ $\bar{R}^2_1>\bar{R}^2_2$ $\bar{R}^2$ $s^2$ $s^2$ $\log(s^2)$ $n$

\begin{array}{rcl} \log (s^{2}) & = & \log ({\hat{σ}}^{2} \frac{n}{n - K}) \\ = & \log ({\hat{σ}}^{2}) + \log (1 + \frac{K}{n - K}) \\ \approx & \log ({\hat{σ}}^{2}) + \frac{K}{n - K} \\ \approx & \log ({\hat{σ}}^{2}) + \frac{K}{n}, \end{array}

$\begin{eqnarray*} \log(s^2)&=&\log\left(\widehat{\sigma}^2\frac{n}{n-K}\right) \\ &=&\log(\widehat{\sigma}^2)+\log\left(1+\frac{K}{n-K}\right) \\ &\approx&\log(\widehat{\sigma}^2)+\frac{K}{n-K} \\ &\approx&\log(\widehat{\sigma}^2)+\frac{K}{n}, \end{eqnarray*}$

{\hat{σ}}^{2}

$\widehat{\sigma}^2$ è lo stimatore ML della varianza dell'errore. La selezione del modello basata su equivale quindi asintoticamente alla scelta del modello con il più piccolo . Questa procedura è incoerente.

{\bar{R}}^{2}

$\bar{R}^2$

\log ({\hat{σ}}^{2}) + K / n

$\log(\widehat{\sigma}^2)+K/n$

Proposta :

lim_{n \to \infty} P ({\bar{R}}_{1}^{2} > {\bar{R}}_{2}^{2} | M_{1}) < 1

$\lim_{n\rightarrow\infty}P\bigl(\bar{R}^2_1>\bar{R}^2_2|\mathcal{M}_1\bigr)<1$

Prova : dove segue la penultima riga perché la statistica è la statistica LR nel caso di regressione lineare che segue un asintotico distribuzione nulla. QED

\begin{array}{rcl} P ({\bar{R}}_{1}^{2} > {\bar{R}}_{2}^{2} | M_{1}) & \approx & P (\log (s_{1}^{2}) < \log (s_{2}^{2}) | M_{1}) \\ = & P (n \log (s_{1}^{2}) < n \log (s_{2}^{2}) | M_{1}) \\ \approx & P (n \log ({\hat{σ}}_{1}^{2}) + K_{1} < n \log ({\hat{σ}}_{2}^{2}) + K_{1} + K_{2} | M_{1}) \\ = & P (n [\log ({\hat{σ}}_{1}^{2}) - \log ({\hat{σ}}_{2}^{2})] < K_{2} | M_{1}) \\ \to & P (χ_{K_{2}}^{2} < K_{2}) \\ < & 1, \end{array}

$\begin{eqnarray*} P\bigl(\bar{R}^2_1>\bar{R}^2_2|\mathcal{M}_1\bigr)&\approx&P\bigl(\log(s^2_1)<\log(s^2_2)|\mathcal{M}_1\bigr) \\ &=&P\bigl(n\log(s^2_1)<n\log(s^2_2)|\mathcal{M}_1\bigr) \\ &\approx&P(n\log(\widehat{\sigma}^2_1)+K_1<n\log(\widehat{\sigma}^2_2)+K_1+K_2|\mathcal{M}_1) \\ &=&P(n[\log(\widehat{\sigma}^2_1)-\log(\widehat{\sigma}^2_2)]<K_2|\mathcal{M}_1) \\ &\rightarrow&P(\chi^2_{K_2}<K_2) \\ &<&1, \end{eqnarray*}$

χ_{K_{2}}^{2}

$\chi^2_{K_2}$

Consideriamo ora il criterio di Akaike, Pertanto, l'AIC scambia anche la riduzione dell'SSR implicita da regressori aggiuntivi con il "termine di penalità , "che punta nella direzione opposta. Quindi, scegli se , altrimenti seleziona .

A I C = \log ({\hat{σ}}^{2}) + 2 \frac{K}{n}

$AIC=\log(\widehat{\sigma}^2)+2\frac{K}{n}$

M_{1}

$\mathcal{M}_1$

A I C_{1} < A I C_{2}

$AIC_1<AIC_2$

M_{2}

$\mathcal{M}_2$

Si può vedere che l' è anche incoerente continuando la precedente prova in linea tre con . L' corretto e l' scelgono quindi il modello "grande" con probabilità positiva, anche se è il modello vero. $AIC$ $P(n\log(\widehat{\sigma}^2_1)+2K_1<n\log(\widehat{\sigma}^2_2)+2(K_1+K_2)|\mathcal{M}_1)$ $R^2$ $AIC$ $\mathcal{M}_2$ $\mathcal{M}_1$

Poiché la penalità per la complessità in AIC è un po 'più grande di quella per aggiustata , potrebbe essere meno soggetta a sovraelezione. E ha altre belle proprietà (minimizzare la divergenza di KL rispetto al modello vero se questo non è nel set di modelli considerati) che non sono affrontate nel mio post. $R^2$

— Christoph Hanck
fonte

1

Ottima risposta: non troppo pesante ma comunque esatta! Se fosse stato lì ieri, non avrei pubblicato il mio.

— Richard Hardy,

Che dire del caso ARMA-GARCH? Come farebbe selezionando i termini MA e GARCH?

R_{a d j}^{2}

$R^2_{adj}$

— Zachary Blumenfeld,

Non oserei dire. Come spieghi, non è nemmeno chiaro cosa significhi R2 per l'adattamento di un tale modello.

— Christoph Hanck,

5

La penalità in non produce le belle proprietà in termini di selezione del modello come postulato da AIC o BIC. La penalità in è sufficiente per rendere uno stimatore imparziale della popolazione quando nessuno dei regressori appartiene effettivamente al modello (secondo i post del blog di Dave Giles "In che senso è il "rettificato" R-quadrato non equilibrato? " e " Altre informazioni sulle proprietà del coefficiente di determinazione "rettificato" ); tuttavia, non è un selettore di modello ottimale. $R^2_{adj}$ $R^2_{adj}$ $R^2_{adj}$ $R^2$ $R^2_{adj}$

(Potrebbe esserci una prova per contraddizione: se AIC è ottimale in un senso e BIC è ottimale in un altro, e non è equivalente a nessuno dei due, allora non è ottimale in nessuno dei due di questi due sensi.) $R^2_{adj}$ $R^2_{adj}$

— Richard Hardy
fonte

Quanti parametri GARCH devo aggiungere prima che aumenti? :) .... Credo che un argomento simile potrebbe essere fatto per l'assunzione di errori correlati (come in un modello MA), un modello GLS non riduce la somma dei residui quadrati sui minimi quadrati ordinari. In MA e GARCH, i parametri (variabili non esplicative, per cui è regolato) vengono aggiunti al modello. I parametri MA e GARCH non vengono aggiunti per ridurre , ma vengono nuovamente aggiunti per aumentare la probabilità e / o ridurre una somma ponderata di residui quadrati per riflettere la mancanza di termini di errore iid.

R^{2}

$R^2$

R^{2} a d j

$R^2{adj}$

S S R

$SSR$

— Zachary Blumenfeld,

Questo in realtà riguarda il post originale o la mia risposta? In ogni caso, sono d'accordo con i tuoi punti.

— Richard Hardy,

Quello che stavo cercando di sottolineare è che non può davvero essere usato per selezionare componenti GARCH (e forse anche componenti MA) poiché si basa sulla frazione di su che sono stimatori distorti di varianza quando i termini di errore non sono indicati. (questo è solo un caso specifico del pregiudizio di cui stai parlando). Nel caso di ARMA-GARCH, non si selezionerebbe mai un modello con componenti GARCH, anche se vi fosse una volatilità stocastica nei dati, perché non aumenta . Fondamentalmente, sono d'accordo con te cercando di fornire esempi specifici.

R_{a d j}^{2}

$R^2_{adj}$

S S T - S S R

$SST-SSR$

S S T

$SST$

R^{2}

$R^2$

— Zachary Blumenfeld,