Cosa succede se anche le "variabili di controllo" sono endogene?


13

Lavoro in Economia politica e molti modelli includono variabili di controllo "innocenti" come popolazione, disuguaglianza, eredità coloniale, ecc. In modo che l'autore possa rivendicare imparzialità sulla propria variabile di interesse indipendente.

Ma se una di queste variabili di controllo è endogena di una variabile omessa, ciò non contamina l'imparzialità di TUTTE le variabili indipendenti?

Se è vero, allora cosa possiamo fare? Lascia fuori quelle variabili di controllo e portano loro stessi a errori di variabile omessi. Includi quelli dentro e contamineranno tutto nel modello.

Esempio: Un ricercatore vuole sapere se disuguaglianza porta alla violenza, e controlla per alcuni aspetti:

Vioolence=ionequun'lioty+solrowth+Development+ε
Vedendo che la disuguaglianza è probabilmente endogena (a causa del livello variabile omesso di altruismo), proverà a trovare una variabile strumentale per la disuguaglianza . Ma la crescita e lo sviluppo non sono probabilmente anche endogeni (cioè correlati al livello di altruismo )?

Questo esempio può sembrare sciocco, ma il mio punto è nel lavoro di Economia politica / Sviluppo, ci sono così tanti fattori in gioco (ma omessi) che temo che molte variabili incluse nell'LHS siano endogene. Eppure spesso, il ricercatore cerca solo uno strumento per la sua variabile indipendente dall'animale.


Ancora un'altra cosa da considerare è il cosiddetto problema del "cattivo controllo" - una situazione in cui il controllo è una variabile di risultato stessa. Ti suggerirei di leggere la Sezione 3.2.3 nella celebre "Econometria per lo più innocua" di Angrist e Pischke per avere una comprensione di questo argomento e perché è importante se vuoi avere una migliore comprensione della tua domanda.
MauOlivares,

Risposte:


10

"Ma se una di queste variabili di controllo è endogena di una variabile omessa, ciò non contamina l'imparzialità di TUTTE le variabili indipendenti?"

Non voglio enfatizzarlo troppo, ma vale la pena ricordare che questo non è vero in generale. Si spera che la seguente derivazione fornisca una certa comprensione della "contaminazione" che lei menziona. Come semplice controesempio, supponiamo che il processo di generazione dei dati sia dato da dove Z non è osservato. Sia C o v ( X 1 , Z ) = 0 , C o v ( X 2

Y=X1β1+X2β2+Zγ+ε,
ZCov(X1,Z)=0 e C o v ( X 1 , X 2 ) = 0 . Quindi, è chiaro che X 2 è "endogeno". Ma nota che poiché C o v ( X 1 , Z ) = 0 , la nostra stima di β 1 sarà ancora ok: plimCov(X2,Z)0Cov(X1,X2)=0X2Cov(X1,Z)=0β1 doveX1 =M2X1eM2=[I-X2(X2 X2)-1X2 ]. PerchéCov(X1,X2)=0,X1
plimβ^1=β1+γCov(X1,Z)Var(X1)=β1,
X1=M2X1M2=[IX2(X2X2)1X2]Cov(X1,X2)=0 . Quindi C o v ( X 1 , Z ) = 0 .X1=X1Cov(X1,Z)=0

"Cosa possiamo fare?"

Una delle sfide principali per fare una buona econometria è pensare a potenziali strategie di identificazione. Nel tipo di situazione che descrivi, probabilmente non c'è niente che tu possa fare se non cercare di affrontare il problema in un modo diverso.


Anche se tecnicamente hai ragione, non vorrei sottolineare questo punto. Preferirei dire che in generale, non possiamo escludere la parzialità di nessuna delle variabili, invece di dire in alcuni scenari che è ok , beh, perché di solito non conosciamo il DGP.
FooBar,

1) Mi può indicare un riferimento in cui la β è derivato in questo modo? Non mi è stato insegnato questo nella mia econometria. 2) Dove usi C o v ( X 1 , Z ) = 0 nella dimostrazione? Sembra che C o v ( X 1 , X - 2 ) = 0 sia sufficiente. 3) Concordo con @FooBar che C o v ( X 1 , X 2 ) = 0 sono l'eccezione, non la norma. Anzi, se Cβ^Cov(X1,Z)=0Cov(X1,X-2)=0Cov(X1,X2)=0 non ci preoccuperemmo di controllare per X 2 in primo luogo (tranne per aumentare la precisione). Cov(X1,X2)=0X2
Heisenberg,

@FooBar, sono d'accordo. Ho aggiornato il post per sottolineare che questo è un caso speciale. Per quanto riguarda il punto di non conoscere il DGP, è vero. Ma non è questo il punto. Qualsiasi analisi deve formulare ipotesi sul DGP e la qualità dell'analisi dipende dalla qualità delle ipotesi. La derivazione che ho dato serve solo a illustrare un esempio delle ipotesi (sebbene, ipotesi molto forti) che potrebbero portarti dove vorresti andare.
jmbejara,

@Heisenberg: 1) Potresti aprire una nuova domanda in proposito su questo? Se semplicemente copi e incolli la derivazione e presenti la tua domanda, sarebbe meglio. 2) è necessario quando dico che C o v ( X 1 , Z ) = 0 . 3) Hai ragione. Se siamo interessati a prevedere Y , sarebbe importante. Ma sì, è un buon punto. D'altra parte, è forse utile notare che la dimensione della distorsione dipende da quanto si crede che X 1 e XCov(X1,Z)=0Cov(X1*,Z)=0YX1 di essere. X2
jmbejara,

1
@jmbejara ho pubblicato 1) come domanda separata . Non esitate a modificare la mia domanda / titolo, poiché in questo caso non so come pronunciare il titolo in modo intelligente e utile per Googler.
Heisenberg,


5

Nel contesto della stima dei minimi quadrati, il modo in cui dobbiamo (tentare di) trattare la possibile endogeneità dei regressori è attraverso la stima delle variabili strumentali. Questo approccio non dipende dall'avere un solo regressore endogeno: potresti averne molti. In tal caso, ovviamente, è necessario trovare più strumenti che rendano le cose più difficili, ma in linea di principio, il metodo funzionerà allo stesso modo.

La stima IV non risolve il problema della distorsione, ma fornisce solo coerenza per lo stimatore. Ma nulla risolve il problema della bias bar rigorosa stessa esogeneità (e quindi ci sono alcuni metodi di riduzione del bias). Ma se dai un'occhiata a un altro sito SE, Cross Validated , che tratta di statistiche, vedrai che gli esperti di statistica non danno molto peso alla proprietà dell'imparzialità, si concentrano sull'efficienza quadratica media per le proprietà del campione finito, e sulla coerenza per grandi proprietà del campione.


1
Quindi l'approccio corretto è davvero trovare strumenti per tutte le variabili endogene, giusto?
Heisenberg,

1
Sì, questo è il modo.
Alecos Papadopoulos,

5

Questo è un esempio di ciò che lo statistico Andrew Gelman chiama "l'errore di controllare un risultato intermedio". Ecco la sua descrizione di questo errore che emerge quando i ricercatori chiedono se avere più figlie cambi la tua politica. La decisione di avere un secondo figlio è necessariamente subordinata alla precedente decisione di avere il primo figlio, e quindi sembra un chiaro esempio di controllo per una variabile di decisione endogena.

Negli ultimi anni sono stati condotti diversi studi, prendendo in considerazione le decisioni economiche dei genitori dei figli, rispetto ai genitori delle figlie .... Una caratteristica comune di tutti questi studi è che controllano il numero totale di bambini ... A prima vista, il controllo del numero totale di bambini sembra ragionevole. C'è una difficoltà, tuttavia, nel fatto che il numero totale di bambini è un risultato intermedio e il controllo per esso (sottoponendo i dati in base a #kids o usando #kids come variabile di controllo in un modello di regressione) può influenzare la stima dell'effetto causale di avere un figlio (o figlia).

Per vedere questo, supponiamo (ipoteticamente) che i genitori politicamente conservatori abbiano maggiori probabilità di desiderare figli, e se hanno due figlie, sono (ipoteticamente) più propensi a cercare un terzo figlio. In confronto, i liberali hanno maggiori probabilità di fermarsi a due figlie. In questo caso, se si guardano i dati sulle famiglie con 2 figlie, i conservatori saranno sottorappresentati e i dati potrebbero mostrare una correlazione delle figlie con il liberalismo politico, anche se avere le figlie non ha alcun effetto! ...

Una soluzione è applicare l'approccio conservativo standard (in senso statistico!) All'inferenza causale, che è di regredire sulla variabile di trattamento (sesso del bambino) ma di controllare solo per le cose che accadono prima della nascita del bambino. Ad esempio, si potrebbero confrontare i genitori il cui primo figlio è una ragazza con i genitori il cui primo figlio è un maschio. Si può anche guardare alla seconda nascita, confrontando i genitori il cui secondo figlio è una ragazza con quelli il cui secondo figlio è un ragazzo che controlla il sesso del primo figlio. E così via per il terzo figlio, ecc.

Avere figli ti rende più conservatore? Forse sì forse no. Un problema con il controllo per un risultato intermedio

Per quanto riguarda il tuo commento che "lascia fuori quelle variabili di controllo e portano loro stessi a una distorsione da variabili omesse", ciò sembra dipendere dal tipo di strumento che ottieni. Un buon strumento, che soddisfa davvero i requisiti, deve essere indipendente dal termine di errore nella seconda fase ed essere indipendente da tutto il resto che controlli direttamente . Cioè, lo strumento cambia Y solo attraverso X. Quindi uno strumento adatto per la disuguaglianza deve essere indipendente dalla crescita e dallo sviluppo (buona fortuna scoprirlo!) Se crediamo che l'equazione della violenza sia l'equazione strutturale della violenza.


1

Come altri post hanno sottolineato, i regressori endogeni possono contaminare tutte le stime dei parametri in regressione quando i regressori sono correlati.

X1X2X2X1

β^1X2X1X2

Considera il seguente modello (analogo alla notazione di @ jmbejara)

y=X1β1+X2β2+Zγ+ε,

Zε1nX1(K)'εp01nX2(K)'εp0KX21nX1(K)'z(l)p0(K,l)

X2X1X1ZX2

1nX1(K)'QX2z(l)p0
(K,l)QX2X2QX2[ion-X2(X2'X2)-1X2']β1

β^1=(X1'QX2X1)-1X1'QX2y=β1+(X1'QX2X1)-1X1'QX2X2p0β2+(X1'QX2X1)-1X1'QX2Zp0γ+(X1'QX2X1)-1X1'QX2εp0
X1X2
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.