Distorsione da variabile omessa nella regressione logistica vs. distorsione da variabile omessa nella regressione dei minimi quadrati ordinaria

Ho una domanda sull'omessa distorsione da variabile nella regressione logistica e lineare.

Supponiamo di omettere alcune variabili da un modello di regressione lineare. Fai finta che quelle variabili omesse non siano correlate con le variabili che ho incluso nel mio modello. Quelle variabili omesse non influenzano i coefficienti nel mio modello.

Ma nella regressione logistica, ho appena imparato che questo non è vero. Le variabili omesse distorcono i coefficienti sulle variabili incluse anche se le variabili omesse non sono correlate con le variabili incluse. Ho trovato un articolo su questo argomento, ma non riesco a capirlo.

Ecco la carta e alcune diapositive powerpoint.

Il pregiudizio, a quanto pare, è sempre verso lo zero. Qualcuno può spiegare come funziona?

— ConfusedEconometricsUndergrad
fonte

Conoscete come il modello di regressione logistica emerge da un modello di regressione lineare "variabile latente" sottostante?

— Alecos Papadopoulos,

@AlecosPapadopoulos Io per primo non lo sono. Qual è il piatto?

— Alexis,

Ci sono altri articoli che ne discutono, ma quello a cui sei collegato è il più semplice che conosca. Quindi non penso di poterci migliorare.

— Maarten Buis,

Caro signor Papadopoulos: ho letto l'idea della variabile latente. Perché lo chiedi?

— ConfusedEconometricsUngradgrad

@ Alexis Vedi ad esempio questo post, stats.stackexchange.com/questions/80611/… e l'articolo di Wikipedia, en.wikipedia.org/wiki/… . Questo approccio chiarisce anche che è il presupposto che facciamo sul termine di errore del modello sottostante che determina quale modello otterremo a livello di probabilità. Per un altro esempio, se assumiamo che l'errore sottostante segua un'uniforme, otteniamo il Modello di probabilità lineare, vedi stats.stackexchange.com/questions/81789

— Papadopoulos,

Il caso della "distorsione dell'attenuazione" può essere presentato più chiaramente se esaminiamo il modello "probit", ma il risultato si ripercuote anche sulla regressione logistica.

Sotto i modelli di probabilità condizionale (modelli logistici (logit), "probit" e "probabilità lineare") possiamo postulare un modello di regressione lineare latente (non osservabile):

y^{*} = X β + u

$y^* = X\beta + u$

dove è una variabile non osservabile continua (e è la matrice del regressore). Si presume che il termine di errore sia indipendente dai regressori e che segua una distribuzione che ha una densità simmetrica intorno allo zero e, nel nostro caso, la distribuzione normale standard . $y^*$ $X$ $F_U(u)= \Phi(u)$

Partiamo dal presupposto che ciò che osserviamo, cioè la variabile binaria , è una funzione Indicatore dell'inosservabile : $y$ $y^*$

y = 1 if y^{*} > 0, y = 0 if y^{*} \leq 0

$y = 1 \;\;\text{if} \;\;y^*>0,\qquad y = 0 \;\;\text{if}\;\; y^*\le 0$

Quindi chiediamo "qual è la probabilità che prenda il valore dati i regressori?" (ovvero stiamo osservando una probabilità condizionata). Questo è $y$ $1$

P (y = 1 ∣ X) = P (y^{*} > 0 ∣ X) = P (X β + u > 0 ∣ X) = P (u > - X β ∣ X) = 1 - Φ (- Χ β) = Φ (X β)

$P(y =1\mid X ) = P(y^*>0\mid X) = P(X\beta + u>0\mid X) = P(u> - X\beta\mid X) \\= 1- \Phi (-Χ\beta) = \Phi (X\beta)$

l'ultima uguaglianza dovuta alla proprietà "riflettente" della funzione di distribuzione cumulativa standard, che deriva dalla simmetria della funzione di densità attorno allo zero. Nota che sebbene abbiamo ipotizzato che sia indipendente da , è necessario il condizionamento su per trattare la quantità come non casuale. $u$ $X$ $X$ $X\beta$

Se assumiamo che , otteniamo il modello teorico $X\beta = b_0+b_1X_1 + b_2X_2$

\begin{matrix} (1) & P (y = 1 ∣ X) = Φ (b_{0} + b_{1} X_{1} + b_{2} X_{2}) \end{matrix}

$P(y =1\mid X ) = \Phi (b_0+b_1X_1 + b_2X_2) \tag{1}$

Ora è indipendente da ed erroneamente escluso dalla specifica della regressione sottostante. Quindi specifichiamo $X_2$ $X_1$

Supponi inoltre che sia anche una normale variabile casuale . Ma questo significa che

y^{*} = b_{0} + b_{1} X_{1} + ϵ

$y^* = b_0+b_1X_1 + \epsilon$

X_{2}

$X_2$

X_{2} \sim N (μ_{2}, σ_{2}^{2})

$X_2 \sim N(\mu_2,\sigma_2^2)$

ϵ = u + b_{2} X_{2} \sim N (b_{2} μ_{2}, 1 + b_{2}^{2} σ_{2}^{2})

$\epsilon = u + b_2X_2 \sim N(b_2\mu_2, 1+b_2^2\sigma_2^2)$

a causa della chiusura sotto aggiunta della distribuzione normale (e dell'assunzione di indipendenza). Applicando la stessa logica di prima, qui abbiamo

P (y = 1 ∣ X_{1}) = P (y^{*} > 0 ∣ X_{1}) = P (b_{0} + b_{1} X_{1} + ϵ > 0 ∣ X_{1}) = P (ϵ > - b_{0} - b_{1} X_{1} ∣ X_{1})

$P(y =1\mid X_1 ) = P(y^*>0\mid X_1) = P(b_0+b_1X_1 + \epsilon>0\mid X_1) = P(\epsilon> - b_0-b_1X_1\mid X_1)$

Standardizzare la variabile che abbiamo $\epsilon$

P (y = 1 ∣ X_{1}) = 1 - P (\frac{ϵ - b_{2} μ_{2}}{\sqrt{1 + b_{2}^{2} σ_{2}^{2}}} \leq - \frac{(b_{0} + b_{2} μ_{2})}{\sqrt{1 + b_{2}^{2} σ_{2}^{2}}} - \frac{b_{1}}{\sqrt{1 + b_{2}^{2} σ_{2}^{2}}} X_{1} ∣ X_{1})

$P(y =1\mid X_1 )= 1- P\left(\frac{\epsilon-b_2\mu_2}{\sqrt {1+b_2^2\sigma_2^2}}\leq - \frac {(b_0 + b_2\mu_2)}{\sqrt {1+b_2^2\sigma_2^2}}- \frac {b_1}{\sqrt {1+b_2^2\sigma_2^2}}X_1\mid X_1\right)$

\begin{matrix} (2) & \Rightarrow P (y = 1 ∣ X_{1}) = Φ (\frac{(b_{0} + b_{2} μ_{2})}{\sqrt{1 + b_{2}^{2} σ_{2}^{2}}} + \frac{b_{1}}{\sqrt{1 + b_{2}^{2} σ_{2}^{2}}} X_{1}) \end{matrix}

$\Rightarrow P(y =1\mid X_1) = \Phi\left(\frac {(b_0 + b_2\mu_2)}{\sqrt {1+b_2^2\sigma_2^2}}+ \frac {b_1}{\sqrt {1+b_2^2\sigma_2^2}}X_1\right) \tag{2}$

e si possono confrontare i modelli e . $(1)$ $(2)$

The above theoretical expression, tells us where our maximum likelihood estimator of $b_1$ is going to converge, since it remains a consistent estimator, in the sense that it will converge to the theoretical quantity that really exists in the model (and of course, not in the sense that it will find the "truth" in any case):

{\hat{b}}_{1} \overset{p}{\to} \frac{b_{1}}{\sqrt{1 + b_{2}^{2} σ_{2}^{2}}} ⟹ | {\hat{b}}_{1} | < | b_{1} |

$\hat b_1 \xrightarrow{p} \frac {b_1}{\sqrt {1+b_2^2\sigma_2^2}} \implies |\hat b_1|< |b_1|$

which is the "bias towards zero" result.

We used the probit model, and not the logit (logistic regression), because only under normality can we derive the distribution of $\epsilon$ . The logistic distribution is not closed under addition. This means that if we omit a relevant variable in logistic regression, we also create distributional misspecification, because the error term (that now includes the omitted variable) no longer follows a logistic distribution. But this does not change the bias result (see footnote 6 in the paper linked to by the OP).

— Alecos Papadopoulos
fonte