Un commento in un'altra domanda ha sollevato dubbi sull'importanza della condizione , sostenendo che può essere corretto dall'inclusione di un termine costante nella specifica di regressione, e quindi "può essere facilmente ignorato".E(u∣X)=0
Non è così. L'inclusione di un termine costante nella regressione assorbirà la media condizionale possibilmente diversa da zero del termine di errore se assumiamo che questa media condizionale sia già una costante e non una funzione dei regressori . Questo è il presupposto cruciale che deve essere fatto indipendentemente dal fatto che includiamo o meno un termine costante:
E(u∣X)=const.
Se questo vale, allora la media diversa da zero diventa un fastidio che possiamo semplicemente risolvere includendo un termine costante.
Ma se questo non regge , (cioè se la media condizionale non è una costante zero o non zero ), l'inclusione del termine costante non risolve il problema: ciò che "assorbirà" in questo caso è una grandezza ciò dipende dal campione specifico e dalle realizzazioni dei regressori. In realtà il coefficiente sconosciuto associato alle serie di quelli, non è in realtà una costante ma variabile, a seconda dei regressori attraverso la media condizionale non costante del termine di errore.
Cosa implica questo?
Per semplificare, supponiamo il caso più semplice, in cui ( i indicizza le osservazioni) ma che E ( u i ∣ x i ) = h ( x i ) . Vale a dire che il termine di errore è media-indipendente dai regressori salvo dalle sue quelle contemporanee (in X noi non includiamo una serie di quelli).E(ui∣X−i)=0iE(ui∣xi)=h(xi)X
Supponiamo di specificare la regressione con l'inclusione di un termine costante (un regressore di una serie di quelli).
y=a+Xβ+ε
e notazione compattante
y=Zγ+ε
a=(a,a,a...)′Z=[1:X]γ=(a,β)′, ε=u−a.
Then the OLS estimator will be
γ^=γ+(Z′Z)−1Z′ε
For unbiasedness we need E[ε∣Z]=0. But
E[εi∣xi]=E[ui−a∣xi]=h(xi)−a
which cannot be zero for all i, since we examine the case where h(xi) is not a constant function. So
E[ε∣Z]≠0⟹E(γ^)≠γ
and
If E(ui∣xi)=h(xi)≠h(xj)=E(uj∣xj), then even if we include a constant term in the regression, the OLS estimator will not be unbiased, meaning also that the Gauss-Markov result on efficiency, is lost.
Moreover, the error term ε has a different mean for each i, and so also a different variance (i.e. it is conditionally heteroskedastic). So its distribution conditional on the regressors differs across the observations i.
But this means that even if the error term ui is assumed normal, then the distribution of the sampling error γ^−γ will be normal but not zero-mean mormal, and with unknown bias. And the variance will differ.
So
If E(ui∣xi)=h(xi)≠h(xj)=E(uj∣xj), then even if we include a constant term in the regression, Hypothesis testing is no longer valid.
In other words, "finite-sample" properties are all gone.
We are left only with the option to resort to asymptotically valid inference, for which we will have to make additional assumptions.
So simply put, Strict Exogeneity cannot be "easily ignored".