Cosa significano sostanzialmente "endogeneità" ed "esogeneità"?


43

Capisco che la definizione base di endogeneità è che non è soddisfatto, ma cosa significa questo in un senso del mondo reale? Ho letto l'articolo di Wikipedia, con l'esempio della domanda e dell'offerta, cercando di dargli un senso, ma non mi è stato di grande aiuto. Ho sentito l'altra descrizione di endogena ed esogena come essere all'interno del sistema ed essere al di fuori del sistema e ciò non ha ancora senso per me.

Xϵ=0

1
Tutte e tre le risposte di seguito sono molto buone (+1 a ciascuna). Se vuoi un'altra fonte di informazioni, discuto qui questo argomento: Stima invece dib 1 x 1 + b 2 x 2 + b 3 x 3b1x1+b2x2b1x1+b2x2+b3x3 , e illustralo con una simulazione R.
gung - Ripristina Monica

1
Quando hai endogeneità la tua regressione non ha più stimatori utilizzabili o statistiche di test.
Ivan

1
Sono d'accordo con @gung e vorrei sottolineare che una risposta completa si rivolgerebbe a "Utilizzabile per quale scopo "? Molte delle risposte di cui sopra trattano molto bene questa domanda.
Matthew Drury,

@Matthew Mi sembra che questo post tenti di rispondere alla domanda "cosa significa questo nel vero mondo?" Sarebbe bello vedere la spiegazione rafforzata in modo che la gente potesse apprezzarla meglio.
whuber

@whuber Non lo so, è così corto che non posso davvero dirlo. Ma stavo pensando, ad esempio, che il modello stimato può essere utile per la previsione (o solo un'associazione) anche se si ha endogeneità, quindi "non ha più stimatori utilizzabili" sembra falso senza chiarimenti.
Matthew Drury,

Risposte:


69

La risposta di JohnRos è molto buona. In parole povere, l'endogeneità significa che hai sbagliato la causalità. Che il modello che hai scritto e stimato non cattura correttamente il modo in cui la causalità funziona nel mondo reale. Quando scrivi:

Yi=β0+β1Xi+ϵi

puoi pensare a questa equazione in vari modi. Potresti pensarlo come un modo conveniente per prevedere base ai valori diPotresti considerarlo un modo conveniente per modellare . In entrambi questi casi, non esiste l'endogeneità e non devi preoccuparti.X E { Y | X }YXE{Y|X}

Tuttavia, puoi anche pensare all'equazione come incarnazione della causalità. Puoi pensare a come la risposta alla domanda: "Cosa accadrebbe a se raggiungessi questo sistema e aumentassi sperimentalmente di 1?" Se vuoi pensarci in questo modo, usare OLS per stimarlo equivale a supporre che: Y Xβ1YX

  1. YX causaY
  2. Yϵ causaY
  3. Xϵ non causaX
  4. XY non causaX
  5. Nulla che causa causa ancheXϵX

Il fallimento di uno qualsiasi dei 3-5 si tradurrà generalmente in , o, non abbastanza equivalentemente, . Le variabili strumentali sono un modo per correggere il fatto che hai sbagliato la causalità (facendo un'altra ipotesi causale diversa). Una sperimentazione controllata randomizzata perfettamente condotta è un modo per forzare 3-5 a essere vero. Se scegli caso, allora sicuramente non è causato da , o altro. I cosiddetti metodi di "esperimento naturale" sono tentativi di trovare circostanze speciali nel mondo in cui 3-5 sono vere anche quando non pensiamo che 3-5 siano di solito vere.C o v ( X , ϵ ) 0 X Y ϵE{ϵ|X}0Cov(X,ϵ)0XYϵ

Nell'esempio di JohnRos, per calcolare il valore salariale dell'educazione, è necessaria un'interpretazione causale di , ma ci sono buoni motivi per ritenere che 3 o 5 siano falsi.β1

Tuttavia, la tua confusione è comprensibile. È molto tipico nei corsi sul modello lineare per l'istruttore usare l'interpretazione causale di ho dato sopra fingendo di non introdurre la causalità, fingendo che "sono solo statistiche." È una bugia codarda, ma è anche molto comune. β1

In realtà, fa parte di un fenomeno più ampio in biomedicina e scienze sociali. È quasi sempre il caso che stiamo cercando di determinare l'effetto causale di su --- questo è ciò di cui la scienza dopo tutto. D'altra parte, è anche quasi sempre il caso che ci sia una storia che puoi raccontare, portando a concludere che una delle 3-5 è falsa. Quindi, c'è una sorta di disonestà praticata, fluida ed equivoca in cui eliminiamo le obiezioni dicendo che stiamo solo facendo un lavoro associativo e poi nascondiamo l'interpretazione causale altrove (normalmente nelle sezioni introduzione e conclusione del documento).YXY

Se sei davvero interessato, il ragazzo da leggere è Judea Perl. Anche James Heckman è bravo.


5
+1 Grande spiegazione e commento. Benvenuti nel nostro sito !.
whuber

2
Potresti dire quale lavoro di Heckman mi consiglieresti per ottenere una comprensione di base e solida su questo tema?
Kenny LJ,

Ho una domanda: come verificare se o è vero “usando i tuoi dati a portata di mano (piuttosto che le tue conoscenze di dominio) che potrebbero non provenire dall'esperimento, ad es. , set di dati osservativi "? Sento che non c'è modo di testare o usa solo i dati, poiché non è osservabile, allora è vero che l'endogeneità non può essere testata usando i dati? E [ ϵ X ] = 0 E [ ϵ | X ] = 0 E [ ϵ X ] = 0 ϵE[ϵ|X]=0E[ϵX]=0E[ϵ|X]=0E[ϵX]=0ϵ
KevinKim,

1
E{ϵ|X}=0ϵE{ϵ|X}=0E{ϵ|X}=0Cov{X,e}=0eE{ϵ|X}=0

2
@KevinKim Esatto. E non è solo il modello lineare. Sono tutte statistiche. Notate, quando qualcuno dice "correlazione non è causalità" non hanno mai, mai andare avanti per dirvi che cosa è la causalità. La causalità è teoria e può essere solo teoria. Perfino un RCT (perfettamente --- e quindi mai condotto) non ti dice causalità senza teoria.
Bill,

18

Vorrei usare un esempio:

Supponi di voler quantificare l'effetto (causale) dell'educazione sul reddito. Prendi anni di istruzione e dati sul reddito e regredisci l'uno contro l'altro. Hai recuperato quello che volevi? Probabilmente no! Questo perché il reddito è causato anche da cose diverse dall'istruzione, ma che sono correlate all'istruzione. Chiamiamole "abilità": possiamo tranquillamente presumere che gli anni di istruzione siano influenzati dalle "abilità", poiché più sei abile, più è facile ottenere un'istruzione. Quindi, se si regrediscono gli anni di istruzione sul reddito, lo stimatore per l'effetto dell'educazione assorbe l'effetto di "abilità" e si ottiene una stima eccessivamente ottimistica del ritorno all'istruzione. Questo per dire che l'effetto dell'educazione sul reddito è (verso l'alto) distorto perché l'educazione non è esogena rispetto al reddito.

Cov(X,ϵ)=0


1
Grazie per l'esempio e la spiegazione. Sono ancora un po 'all'oscuro di cosa significhino endogeneità ed esogeneità in un inglese semplice. Cosa intendo esattamente quando dico che una variabile è endogena o esogena.
user25901,

@ JohnRos Hai scritto "L'endogeneità è solo un problema se vuoi recuperare gli effetti causali", mi sembra che sia anche possibile dire che "l'esogeneità implica la causalità" ... Non ho mai letto quella frase ... comunque è giusto? Se è corretto, mi sembra che molti libri di testo, a volte implicitamente, suppongano l'inferenza causale come obiettivi normali.
markowitz,

@markowitz: ogni volta che si deduce dai coefficienti di regressione, è implicito che si desidera la causalità. Se vuoi solo previsioni, il valore dei coefficienti non ha davvero importanza, a condizione che le previsioni siano buone. È vero che i libri di testo classici non fanno questa distinzione perché prima il compito della predizione non è "scienza di base" ma piuttosto più "ingegneria" (e perdonami per questa rozza generalizzazione)
JohnRos

Grazie JohnRos, lasciami fare un'altra domanda su un punto correlato. Il problema della stima distorta dei coefficienti ha senso solo nel modello di regressione causale, mentre per gli obiettivi di predizione sicuramente non lo sono. È giusto? Lo chiedo perché questo punto non è chiaro in nessun luogo.
Markowitz,

8

L'utente 25901 è alla ricerca di una spiegazione semplice e reale del mondo reale che cosa significano i termini esogeni ed endogeni. Rispondere con esempi arcani o definizioni matematiche non risponde realmente alla domanda che è stata posta.

Come posso capire a fondo questi due termini?

Ecco cosa mi è venuto in mente:

Exo - esterno, esterno Endo - interno, interno-venoso - originario di

Esogenea: una variabile è esogena a un modello se non è determinata da altri parametri e variabili nel modello, ma è impostata esternamente e qualsiasi modifica ad essa derivante da forze esterne.

Endogena: una variabile è endogena in un modello se è almeno in parte funzione di altri parametri e variabili in un modello.


7
Queste sono definizioni intuitive ragionevoli, ma non è necessario essere così sprezzanti verso le altre risposte.
gung - Ripristina Monica

3
Fare appello all'etimologia può essere utile per ricordare cosa significano i termini tecnici (funziona bene per me), ma usare l'etimologia per giustificarli deve essere evitato. Parecchi termini (nelle statistiche e altrove) sono correttamente compresi solo attraverso un attento studio delle loro definizioni matematiche. Comprendere questa risposta richiede una chiara concezione degli usi previsti di parole e frasi come "determinato da", "impostato esternamente", "cambia in", "forze esterne" e "parzialmente [una] funzione", nessuna delle quali sono immediatamente apparente o inequivocabile.
whuber

6

Xϵ=0Xϵ^=0

Y=α+βX+γZ+noiseZXXnoise0ZXlog(ex)=x. È solo un fatto matematico. Questa è la distorsione da variabile omessa.

IYXIXXY

Quello è due minimi quadrati a due stadi, che è quasi lo stesso di IV.


Come capisco non è 2SLS un modo per fare IV, mi scuso se mi sbaglio.
user25901,

Gli errori standard 2SLS sono errati. Dimentico perché o come, ma probabilmente troverai qualcosa se google "IV 2SLS errori standard". La maggior parte dei pacchetti software implementano 2SLS con la soluzione (t (z)% *% (x)% *% t (z)% * Metodo% y
generic_user

1
X^X

Grazie. Ero appena uscito dall'econometria applicata quando scrissi questo.
generic_user,

-1

In regressione vogliamo catturare l'impatto quantitativo di una variabile indipendente (che supponiamo sia esogena e non essere essa stessa dipendente da qualcos'altro) su una variabile dipendente identificata. Vogliamo sapere quale effetto netto ha una variabile esogena su una variabile dipendente, il che significa che la variabile indipendente dovrebbe essere libera da qualsiasi influenza da un'altra variabile. Un modo rapido per vedere se la regressione soffre del problema dell'endogeneità è verificare la correlazione tra la variabile indipendente e i residui. Ma questo è solo un controllo approssimativo, altrimenti devono essere eseguiti test formali di endogeneità.


3
Questo non è vero. La correlazione tra i residui e le variabili esplicative di una regressione è zero per costruzione. Questo non è un test per l'endogeneità.
Andy,

E[ϵX]=0ϵy=b0+b1x+ϵϵE[e^i|x]=0e^iE[e^i|x]=0b^0+b^1x
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.