Distorsione da variabile omessa nella regressione logistica vs. distorsione da variabile omessa nella regressione dei minimi quadrati ordinaria


17

Ho una domanda sull'omessa distorsione da variabile nella regressione logistica e lineare.

Supponiamo di omettere alcune variabili da un modello di regressione lineare. Fai finta che quelle variabili omesse non siano correlate con le variabili che ho incluso nel mio modello. Quelle variabili omesse non influenzano i coefficienti nel mio modello.

Ma nella regressione logistica, ho appena imparato che questo non è vero. Le variabili omesse distorcono i coefficienti sulle variabili incluse anche se le variabili omesse non sono correlate con le variabili incluse. Ho trovato un articolo su questo argomento, ma non riesco a capirlo.

Ecco la carta e alcune diapositive powerpoint.

Il pregiudizio, a quanto pare, è sempre verso lo zero. Qualcuno può spiegare come funziona?


Conoscete come il modello di regressione logistica emerge da un modello di regressione lineare "variabile latente" sottostante?
Alecos Papadopoulos,

@AlecosPapadopoulos Io per primo non lo sono. Qual è il piatto?
Alexis,

Ci sono altri articoli che ne discutono, ma quello a cui sei collegato è il più semplice che conosca. Quindi non penso di poterci migliorare.
Maarten Buis,

Caro signor Papadopoulos: ho letto l'idea della variabile latente. Perché lo chiedi?
ConfusedEconometricsUngradgrad

@ Alexis Vedi ad esempio questo post, stats.stackexchange.com/questions/80611/… e l'articolo di Wikipedia, en.wikipedia.org/wiki/… . Questo approccio chiarisce anche che è il presupposto che facciamo sul termine di errore del modello sottostante che determina quale modello otterremo a livello di probabilità. Per un altro esempio, se assumiamo che l'errore sottostante segua un'uniforme, otteniamo il Modello di probabilità lineare, vedi stats.stackexchange.com/questions/81789
Papadopoulos,

Risposte:


20

Il caso della "distorsione dell'attenuazione" può essere presentato più chiaramente se esaminiamo il modello "probit", ma il risultato si ripercuote anche sulla regressione logistica.

Sotto i modelli di probabilità condizionale (modelli logistici (logit), "probit" e "probabilità lineare") possiamo postulare un modello di regressione lineare latente (non osservabile):

y=Xβ+u

dove è una variabile non osservabile continua (e X è la matrice del regressore). Si presume che il termine di errore sia indipendente dai regressori e che segua una distribuzione che ha una densità simmetrica intorno allo zero e, nel nostro caso, la distribuzione normale standard F U ( u ) = Φ ( u ) .yXFU(u)=Φ(u)

Partiamo dal presupposto che ciò che osserviamo, cioè la variabile binaria , è una funzione Indicatore dell'inosservabile y :yy

y=1ify>0,y=0ify0

Quindi chiediamo "qual è la probabilità che prenda il valore 1 dati i regressori?" (ovvero stiamo osservando una probabilità condizionata). Questo èy1

P(y=1X)=P(y>0X)=P(Xβ+u>0X)=P(u>XβX)=1Φ(Χβ)=Φ(Xβ)

l'ultima uguaglianza dovuta alla proprietà "riflettente" della funzione di distribuzione cumulativa standard, che deriva dalla simmetria della funzione di densità attorno allo zero. Nota che sebbene abbiamo ipotizzato che sia indipendente da X , è necessario il condizionamento su X per trattare la quantità X β come non casuale.uXXXβ

Se assumiamo che , otteniamo il modello teoricoXβ=b0+b1X1+b2X2

(1)P(y=1X)=Φ(b0+b1X1+b2X2)

Ora è indipendente da X 1 ed erroneamente escluso dalla specifica della regressione sottostante. Quindi specifichiamoX2X1

Supponi inoltre che X 2 sia anche una normale variabile casuale X 2N ( μ 2 , σ 2 2 ) . Ma questo significa che

y=b0+b1X1+ϵ
X2X2N(μ2,σ22)

ϵ=u+b2X2N(b2μ2,1+b22σ22)

a causa della chiusura sotto aggiunta della distribuzione normale (e dell'assunzione di indipendenza). Applicando la stessa logica di prima, qui abbiamo

P(y=1X1)=P(y>0X1)=P(b0+b1X1+ϵ>0X1)=P(ϵ>b0b1X1X1)

Standardizzare la variabile che abbiamoϵ

P(y=1X1)=1P(ϵb2μ21+b22σ22(b0+b2μ2)1+b22σ22b11+b22σ22X1X1)

(2)P(y=1X1)=Φ((b0+b2μ2)1+b22σ22+b11+b22σ22X1)

e si possono confrontare i modelli e ( 2 ) .(1)(2)

The above theoretical expression, tells us where our maximum likelihood estimator of b1 is going to converge, since it remains a consistent estimator, in the sense that it will converge to the theoretical quantity that really exists in the model (and of course, not in the sense that it will find the "truth" in any case):

b^1pb11+b22σ22|b^1|<|b1|

which is the "bias towards zero" result.

We used the probit model, and not the logit (logistic regression), because only under normality can we derive the distribution of ϵ. The logistic distribution is not closed under addition. This means that if we omit a relevant variable in logistic regression, we also create distributional misspecification, because the error term (that now includes the omitted variable) no longer follows a logistic distribution. But this does not change the bias result (see footnote 6 in the paper linked to by the OP).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.