Ipotesi per derivare lo stimatore OLS


14

Qualcuno può spiegare brevemente per me, perché ciascuna delle sei ipotesi è necessaria per calcolare lo stimatore OLS? Ho scoperto solo della multicollinearità, che se esiste non possiamo invertire la matrice (X'X) e stimare a sua volta lo stimatore generale. E gli altri (ad es. Linearità, zero errori medi, ecc.)?



1
Stai cercando una spiegazione concettuale o hai bisogno di una dimostrazione matematica?
gung - Ripristina Monica

4
I minimi quadrati ordinari sono una procedura numerica, per calcolarla non è necessaria molta ipotesi (a parte l'invertibilità). Le ipotesi sono necessarie per giustificare l' inferenza basata su di essa, vedi la mia risposta ieri: stats.stackexchange.com/questions/148803/…
kjetil b halvorsen

1
Esattamente a quali "sei ipotesi" ti riferisci? Ne citi solo tre.
whuber

Mi riferisco a 1) linearità 2) assenza di multicollinearità 3) zero errori medi 4) errori sferici (omoscedasticità e non autocorrelazione) 5) regressori non stocastici e 6) distribuzione normale. Quindi, come ho capito dalla risposta qui sotto, sono necessari solo i primi tre per derivare lo stimatore e altri sono necessari solo per assicurarsi che lo stimatore sia BLU?
Ieva,

Risposte:


23

Puoi sempre calcolare lo stimatore OLS, a parte il caso in cui hai una perfetta multicollinearità. In questo caso, hai una perfetta dipendenza multilineare nella tua matrice X. Di conseguenza, il presupposto di rango massimo non è soddisfatto e non è possibile calcolare lo stimatore OLS, a causa di problemi di invertibilità.

Tecnicamente, non sono necessarie le altre ipotesi OLS per calcolare lo stimatore OLS. Tuttavia, secondo il teorema di Gauss-Markov è necessario soddisfare il presupposto OLS (ipotesi clrm) affinché lo stimatore sia BLU.

Puoi trovare un'ampia discussione sul teorema di Gauss – Markov e la sua derivazione matematica qui:

http://economictheoryblog.com/2015/02/26/markov_theorem/

Inoltre, se stai cercando una panoramica dell'assunto OLS, ovvero quanti ce ne sono, cosa ne richiedono e cosa succede in caso di violazione del singolo presupposto OLS, potresti trovare una discussione elaborata qui:

http://economictheoryblog.com/2015/04/01/ols_assumptions/

Spero che aiuti, evviva!


14

Quanto segue si basa su semplici sezioni trasversali, per serie temporali e pannelli è leggermente diverso.

  1. Nella popolazione, e quindi nel campione, il modello può essere scritto come: Questo è il presupposto della linearità, che talvolta viene frainteso. Il modello dovrebbe essere lineare nei parametri, vale a dire ilβk. Sei libero di fare quello che vuoi con laxistessa. Tronchi, quadrati ecc. In caso contrario, il modello non può essere stimato da OLS: è necessario un altro stimatore non lineare.
    Y=β0+β1x1++βkxk+u=Xβ+u
    βkxi
  2. Un campione casuale (per sezioni trasversali) Ciò è necessario per l'inferenza e le proprietà del campione. È in qualche modo irrilevante per la meccanica pura di OLS.
  3. Nessuna perfetta collinearità Ciò significa che non può esserci una relazione perfetta tra la . Questo è il presupposto che assicura che ( X X ) non sia singolare, in modo tale che ( X X ) - 1 esista.xi(XX)(XX)1
  4. Media condizionale zero: . Ciò significa che hai specificato correttamente il modello in modo tale che: non vi siano variabili omesse e la forma funzionale che hai stimato sia corretta rispetto al modello di popolazione (sconosciuto). Questo è sempre il presupposto problematico con OLS, poiché non c'è modo di sapere se è effettivamente valido o meno.E(u|X)=0
  5. La varianza del termine errori è costante, subordinata a tutti i : V a r ( u | X ) = σ 2 Ancora una volta ciò non significa nulla per la meccanica di OLS, ma garantisce che i soliti errori standard siano validi.XiVar(u|X)=σ2
  6. Normalità; il termine di errore u è indipendente da e segue u N ( 0 , σ 2 ) . Ancora una volta, ciò è irrilevante per la meccanica dell'OLS, ma assicura che la distribuzione campionaria del β k sia normale, ^ β kN ( β kXiuN(0,σ2)βk .βk^N(βk,Var(βk^))

Ora per le implicazioni.

  1. Sotto 1 - 6 (i presupposti del modello lineare classico) OLS è BLU (miglior stimatore lineare imparziale), migliore nel senso della varianza più bassa. È anche efficiente tra tutti gli stimatori lineari, così come tutti gli stimatori che usano alcune funzioni di x. Ancora più importante sotto 1 - 6, OLS è anche lo stimatore imparziale della varianza minima. Ciò significa che tra tutti gli stimatori imparziali (non solo quelli lineari) OLS presenta la varianza più piccola. OLS è anche coerente.

  2. Sotto 1 - 5 (i presupposti di Gauss-Markov) OLS è BLU ed efficiente (come descritto sopra).

  3. Sotto 1 - 4, OLS è imparziale e coerente.

In realtà OLS è anche coerente, sotto un'ipotesi più debole di vale a dire che: ( 1 ) E ( u ) = 0 e ( 2 ) C o v(4)(1) E(u)=0 . La differenza rispetto alle ipotesi 4 è che, in base a questa ipotesi, non è necessario definire perfettamente la relazione funzionale.(2) Cov(xj,u)=0


Penso che dipingi un'immagine troppo scura della condizione media zero. Se ci fosse un bias, ridurre al minimo la somma delle deviazioni al quadrato non sarebbe la cosa appropriata da fare, ma d'altra parte, puoi catturare il bias spostando l'equazione di regressione (assorbendo il bias in ), e quindi si fa avete media 0. In altre parole, 4 è sia impossibile da verificare e facile da ignorare. β0
user3697176

Mi dispiace, ma non sono d'accordo. O forse ti sto solo fraintendendo? Potresti eloborare o dare un riferimento.
Repmat

Non sto parlando di una stima intenzionalmente distorta (come la regressione della cresta), che credo non interessasse all'OP. Sto parlando di un modello della forma in cui --- per qualche strana ragione --- il residuo ϵ ha α 0 medio . In questo caso è facile fare una trasformazione formale in y = α + β 0 + β 1 x 1 + +y=β0+β1x1++βxxn+ϵϵα0 , dove la media di η è zero. y=α+β0+β1x1++βxxn+ηη
user3697176,

@ user3697176 Quello che scrivi non è corretto. Ho appena pubblicato una risposta per spiegare il perché.
Alecos Papadopoulos,

Se il presupposto 1 non è soddisfatto, non possiamo ancora usare OLS per stimare la covarianza della popolazione (anche se sappiamo che non esiste una relazione lineare)?
max

7

Un commento in un'altra domanda ha sollevato dubbi sull'importanza della condizione , sostenendo che può essere corretto dall'inclusione di un termine costante nella specifica di regressione, e quindi "può essere facilmente ignorato".E(uX)=0

Non è così. L'inclusione di un termine costante nella regressione assorbirà la media condizionale possibilmente diversa da zero del termine di errore se assumiamo che questa media condizionale sia già una costante e non una funzione dei regressori . Questo è il presupposto cruciale che deve essere fatto indipendentemente dal fatto che includiamo o meno un termine costante:

E(uX)=const.

Se questo vale, allora la media diversa da zero diventa un fastidio che possiamo semplicemente risolvere includendo un termine costante.

Ma se questo non regge , (cioè se la media condizionale non è una costante zero o non zero ), l'inclusione del termine costante non risolve il problema: ciò che "assorbirà" in questo caso è una grandezza ciò dipende dal campione specifico e dalle realizzazioni dei regressori. In realtà il coefficiente sconosciuto associato alle serie di quelli, non è in realtà una costante ma variabile, a seconda dei regressori attraverso la media condizionale non costante del termine di errore.

Cosa implica questo? Per semplificare, supponiamo il caso più semplice, in cui ( i indicizza le osservazioni) ma che E ( u ix i ) = h ( x i ) . Vale a dire che il termine di errore è media-indipendente dai regressori salvo dalle sue quelle contemporanee (in X noi non includiamo una serie di quelli).E(uiXi)=0iE(uixi)=h(xi)X

Supponiamo di specificare la regressione con l'inclusione di un termine costante (un regressore di una serie di quelli).

y=a+Xβ+ε

e notazione compattante

y=Zγ+ε

a=(a,a,a...)Z=[1:X]γ=(a,β), ε=ua.

Then the OLS estimator will be

γ^=γ+(ZZ)1Zε

For unbiasedness we need E[εZ]=0. But

E[εixi]=E[uiaxi]=h(xi)a

which cannot be zero for all i, since we examine the case where h(xi) is not a constant function. So

E[εZ]0E(γ^)γ

and

If E(uixi)=h(xi)h(xj)=E(ujxj), then even if we include a constant term in the regression, the OLS estimator will not be unbiased, meaning also that the Gauss-Markov result on efficiency, is lost.

Moreover, the error term ε has a different mean for each i, and so also a different variance (i.e. it is conditionally heteroskedastic). So its distribution conditional on the regressors differs across the observations i.

But this means that even if the error term ui is assumed normal, then the distribution of the sampling error γ^γ will be normal but not zero-mean mormal, and with unknown bias. And the variance will differ. So

If E(uixi)=h(xi)h(xj)=E(ujxj), then even if we include a constant term in the regression, Hypothesis testing is no longer valid.

In other words, "finite-sample" properties are all gone.

We are left only with the option to resort to asymptotically valid inference, for which we will have to make additional assumptions.

So simply put, Strict Exogeneity cannot be "easily ignored".


I'm not completely sure I understand this. Isn't assuming that the mean is a not a function of the regressors equivalent to assuming homoscedasticity?
Batman

@Batman To what part of my post are you referring to?
Alecos Papadopoulos

When you say "The inclusion of a constant term in the regression will absorb the possibly non-zero conditional mean of the error term if we assume that this conditional mean is already a constant and not a function of the regressors. This is the crucial assumption that must be made independently of whether we include a constant term or not." Isn't assuming that the conditional mean isn't a function of the regressors exactly what we're assuming when we assume homoscedasticity?
Batman

@Batman Homoskedasticity is an assumption about the variance. Assuming mean -independence does not imply that E(uj2x) is also a constant, which is also needed for conditional homoskedasticity. In fact, mean-independence, E(ux)=const. together with conditional heteroskedasticity, E(u2x)=g(x) is a standard model variant.
Alecos Papadopoulos
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.