Come interpretare il coefficiente di secondo stadio nella regressione delle variabili strumentali con uno strumento binario e una variabile endogena binaria?


11

(post abbastanza lungo, scusate. Include molte informazioni di base, quindi sentitevi liberi di saltare alla domanda in fondo.)

Intro: sto lavorando a un progetto in cui stiamo cercando di identificare l'effetto di una variabile endogena binaria, , su un risultato continuo, y . Abbiamo creato uno strumento, z 1 , che crediamo fortemente di essere assegnato come se fosse casualmente.x1yz1

Dati: i dati stessi sono in una struttura a pannelli con circa 34.000 osservazioni distribuite su 1000 unità e circa 56 periodi di tempo. assume un valore di 1 per circa 700 (2%) delle osservazioni e z 1 lo fa per circa 3000 (9%). 111 osservazioni (0,33%) ottengono un 1 su z 1 e su x 1 , ed è due volte più probabile che un'osservazione ottenga un 1 su x 1 se segna anche un 1 su z 1 .x1z1z1x1x1z1

Stima: stimiamo il seguente modello 2SLS attraverso la procedura ivreg2 di Stata:

y = β 0 + β 1 x 1 + Z β + u

x1=π0+π1z1+Zπ+v
y=β0+β1x1+Zβ+u

Dove è un vettore di altre variabili esogene, x 1 è il valore previsto di x 1 dal primo stadio e u e v sono termini di errore.Zx1x1uv

π1β1β1

yβ1

i.i.d.

Secondo il loro test AR, il limite inferiore dell'intervallo di confidenza al 95% per il coefficiente del secondo stadio è compreso tra 16 e 29 (sempre a seconda delle specifiche). La probabilità di rifiuto è praticamente 1 per tutti i valori vicini allo zero.

Osservazioni influenti: abbiamo provato a stimare il modello con ogni unità rimossa individualmente, con ogni osservazione rimossa individualmente e con i gruppi di unità rimossi. Nessun vero cambiamento.

x1x1x1x10.01830=0.54(altre specifiche danno risultati quasi identici). Questo sarebbe molto più ragionevole (ma comunque sostanziale). Sembra la soluzione perfetta. Solo che non ho mai visto nessuno farlo; tutti sembrano interpretare il coefficiente del secondo stadio usando la metrica della variabile endogena originale.

Domanda: in un modello IV, è corretto riassumere l'effetto stimato (il LATE, davvero) di un aumento della variabile endogena usando la metrica della versione prevista di esso? Nel nostro caso, quella metrica è la probabilità prevista.

Nota: usiamo 2SLS anche se abbiamo una variabile endogena binaria (che rende il primo stadio un LPM). Segue Angrist & Krueger (2001): "Variabili strumentali e ricerca di identificazione: dall'offerta e dalla domanda agli esperimenti naturali") Abbiamo anche provato la procedura in tre fasi utilizzata in Adams, Almeida e Ferreira (2009): " Comprendere il rapporto tra fondatore-CEO e prestazioni aziendali ”. Quest'ultimo approccio, che consiste in un modello probit seguito da 2SLS, produce coefficienti più piccoli e più sensibili, ma sono ancora molto grandi se interpretati nella metrica 0-1 (circa 9-10). Otteniamo gli stessi risultati con i calcoli manuali come facciamo con l'opzione probit-2sls in ivtreatreg di Cerulli.


Ci hai provato etregress/treatreg?
Dimitriy V. Masterov,

Ciao Dimitriy, grazie per la risposta! Ho provato etregress ora, e dà risultati in qualche modo simili. Tuttavia, leggendo il manuale Stata e Wooldridge (2002): "Analisi econometrica della sezione trasversale e dei dati del panel" ho l'impressione che questo tipo di modello di regressione del trattamento presupponga l'ignoranza del trattamento. Cioè, a seconda delle variabili osservate, se un'unità viene trattata o meno è indipendente dal suo (potenziale) risultato sia sotto il trattamento che sotto il controllo.
Bertel,

x

β^1=β1+Cov(z1,u)Cov(z1,x1)β1

Risposte:


2

β1α1

y=α0+α1z1+Zα+u

π1

x1=π0+π1z1+Zπ+v

β1α1π1

α1π1α^1π^1β^1

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.