Quando valuto una camminata casuale con un AR (1), il coefficiente è molto vicino a 1 ma sempre inferiore.
Qual è la ragione matematica per cui il coefficiente non è maggiore di uno?
Quando valuto una camminata casuale con un AR (1), il coefficiente è molto vicino a 1 ma sempre inferiore.
Qual è la ragione matematica per cui il coefficiente non è maggiore di uno?
Risposte:
Stimiamo da OLS il modello
Per un campione di dimensione T, lo stimatore è
Se il vero meccanismo di generazione dei dati è una passeggiata casuale pura, allora e
La distribuzione campionaria della OLS stimatore, o equivalentemente, la distribuzione campionaria di ρ - 1 , non è simmetrica intorno allo zero, ma piuttosto è inclinata a sinistra dello zero, con ≈ 68 % dei valori ottenuti (cioè ≈ massa di probabilità) essere negativo, e così abbiamo ottenere più spesso di quanto non ρ < 1 . Ecco una distribuzione di frequenza relativa
Questa è talvolta chiamata distribuzione "Dickey-Fuller", poiché è la base per i valori critici utilizzati per eseguire i test Unit-Root con lo stesso nome.
Non ricordo di aver visto un tentativo di fornire intuizione per la forma della distribuzione campionaria. Stiamo esaminando la distribuzione campionaria della variabile casuale
Se sommiamo le Normative di prodotto indipendenti otteniamo una distribuzione che rimane simmetrica intorno allo zero. Per esempio:
Ma se sommiamo le Normative di prodotto non indipendenti come nel nostro caso otteniamo
che è inclinato a destra ma con più massa di probabilità assegnata ai valori negativi. E la massa sembra essere spinta ancora di più a sinistra se aumentiamo la dimensione del campione e aggiungiamo elementi più correlati alla somma.
Il reciproco della somma dei Gamma non indipendenti è una variabile casuale non negativa con inclinazione positiva.
Questa non è davvero una risposta, ma è troppo lunga per un commento, quindi la posterò comunque.
Sono stato in grado di ottenere un coefficiente maggiore di 1 due volte su cento per una dimensione del campione di 100 (usando "R"):
N=100 # number of trials
T=100 # length of time series
coef=c()
for(i in 1:N){
set.seed(i)
x=rnorm(T) # generate T realizations of a standard normal variable
y=cumsum(x) # cumulative sum of x produces a random walk y
lm1=lm(y[-1]~y[-T]) # regress y on its own first lag, with intercept
coef[i]=as.numeric(lm1$coef[1])
}
length(which(coef<1))/N # the proportion of estimated coefficients below 1
Le realizzazioni 84 e 95 hanno un coefficiente superiore a 1, quindi non sono sempre inferiori a 1. Tuttavia, la tendenza è chiaramente quella di avere una stima distorta verso il basso. Le domande rimangono, perché ?
Modifica: le regressioni precedenti includevano un termine di intercettazione che non sembra appartenere al modello. Una volta rimossa l'intercettazione, ottengo molte più stime sopra 1 (3158 su 10000) - ma è ancora chiaramente inferiore al 50% di tutti i casi:
N=10000 # number of trials
T=100 # length of time series
coef=c()
for(i in 1:N){
set.seed(i)
x=rnorm(T) # generate T realizations of a standard normal variable
y=cumsum(x) # cumulative sum of x produces a random walk y
lm1=lm(y[-1]~-1+y[-T]) # regress y on its own first lag, without intercept
coef[i]=as.numeric(lm1$coef[1])
}
length(which(coef<1))/N # the proportion of estimated coefficients below 1