Il caso della "distorsione dell'attenuazione" può essere presentato più chiaramente se esaminiamo il modello "probit", ma il risultato si ripercuote anche sulla regressione logistica.
Sotto i modelli di probabilità condizionale (modelli logistici (logit), "probit" e "probabilità lineare") possiamo postulare un modello di regressione lineare latente (non osservabile):
y∗=Xβ+u
dove è una variabile non osservabile continua (e X è la matrice del regressore). Si presume che il termine di errore sia indipendente dai regressori e che segua una distribuzione che ha una densità simmetrica intorno allo zero e, nel nostro caso, la distribuzione normale standard F U ( u ) = Φ ( u ) .y∗XFU(u)=Φ(u)
Partiamo dal presupposto che ciò che osserviamo, cioè la variabile binaria , è una funzione Indicatore dell'inosservabile y ∗ :yy∗
y=1ify∗>0,y=0ify∗≤0
Quindi chiediamo "qual è la probabilità che prenda il valore 1 dati i regressori?" (ovvero stiamo osservando una probabilità condizionata). Questo èy1
P(y=1∣X)=P(y∗>0∣X)=P(Xβ+u>0∣X)=P(u>−Xβ∣X)=1−Φ(−Xβ)=Φ(Xβ)
l'ultima uguaglianza dovuta alla proprietà "riflettente" della funzione di distribuzione cumulativa standard, che deriva dalla simmetria della funzione di densità attorno allo zero. Nota che sebbene abbiamo ipotizzato che sia indipendente da X , è necessario il condizionamento su X per trattare la quantità X β come non casuale.uXXXβ
Se assumiamo che , otteniamo il modello teoricoXβ=b0+b1X1+b2X2
P(y=1∣X)=Φ(b0+b1X1+b2X2)(1)
Ora è indipendente da X 1 ed erroneamente escluso dalla specifica della regressione sottostante. Quindi specifichiamoX2X1
Supponi inoltre che X 2 sia anche una normale variabile casuale X 2 ∼ N ( μ 2 , σ 2 2 ) . Ma questo significa che
y∗=b0+b1X1+ϵ
X2X2∼N(μ2,σ22)
ϵ=u+b2X2∼N(b2μ2,1+b22σ22)
a causa della chiusura sotto aggiunta della distribuzione normale (e dell'assunzione di indipendenza). Applicando la stessa logica di prima, qui abbiamo
P(y=1∣X1)=P(y∗>0∣X1)=P(b0+b1X1+ϵ>0∣X1)=P(ϵ>−b0−b1X1∣X1)
Standardizzare la variabile che abbiamoϵ
P(y=1∣X1)=1−P⎛⎝⎜ϵ−b2μ21+b22σ22−−−−−−−√≤−(b0+b2μ2)1+b22σ22−−−−−−−√−b11+b22σ22−−−−−−−√X1∣X1⎞⎠⎟
⇒P(y=1∣X1)=Φ⎛⎝⎜(b0+b2μ2)1+b22σ22−−−−−−−√+b11+b22σ22−−−−−−−√X1⎞⎠⎟(2)
e si possono confrontare i modelli e ( 2 ) .(1)(2)
The above theoretical expression, tells us where our maximum likelihood estimator of b1 is going to converge, since it remains a consistent estimator, in the sense that it will converge to the theoretical quantity that really exists in the model (and of course, not in the sense that it will find the "truth" in any case):
b^1→pb11+b22σ22−−−−−−−√⟹|b^1|<|b1|
which is the "bias towards zero" result.
We used the probit model, and not the logit (logistic regression), because only under normality can we derive the distribution of ϵ. The logistic distribution is not closed under addition. This means that if we omit a relevant variable in logistic regression, we also create distributional misspecification, because the error term (that now includes the omitted variable) no longer follows a logistic distribution. But this does not change the bias result (see footnote 6 in the paper linked to by the OP).