(post abbastanza lungo, scusate. Include molte informazioni di base, quindi sentitevi liberi di saltare alla domanda in fondo.)
Intro: sto lavorando a un progetto in cui stiamo cercando di identificare l'effetto di una variabile endogena binaria, , su un risultato continuo, y . Abbiamo creato uno strumento, z 1 , che crediamo fortemente di essere assegnato come se fosse casualmente.
Dati: i dati stessi sono in una struttura a pannelli con circa 34.000 osservazioni distribuite su 1000 unità e circa 56 periodi di tempo. assume un valore di 1 per circa 700 (2%) delle osservazioni e z 1 lo fa per circa 3000 (9%). 111 osservazioni (0,33%) ottengono un 1 su z 1 e su x 1 , ed è due volte più probabile che un'osservazione ottenga un 1 su x 1 se segna anche un 1 su z 1 .
Stima: stimiamo il seguente modello 2SLS attraverso la procedura ivreg2 di Stata:
y = β 0 + β 1 x ∗ 1 + Z β + u
Dove è un vettore di altre variabili esogene, x ∗ 1 è il valore previsto di x 1 dal primo stadio e u e v sono termini di errore.
Secondo il loro test AR, il limite inferiore dell'intervallo di confidenza al 95% per il coefficiente del secondo stadio è compreso tra 16 e 29 (sempre a seconda delle specifiche). La probabilità di rifiuto è praticamente 1 per tutti i valori vicini allo zero.
Osservazioni influenti: abbiamo provato a stimare il modello con ogni unità rimossa individualmente, con ogni osservazione rimossa individualmente e con i gruppi di unità rimossi. Nessun vero cambiamento.
(altre specifiche danno risultati quasi identici). Questo sarebbe molto più ragionevole (ma comunque sostanziale). Sembra la soluzione perfetta. Solo che non ho mai visto nessuno farlo; tutti sembrano interpretare il coefficiente del secondo stadio usando la metrica della variabile endogena originale.
Domanda: in un modello IV, è corretto riassumere l'effetto stimato (il LATE, davvero) di un aumento della variabile endogena usando la metrica della versione prevista di esso? Nel nostro caso, quella metrica è la probabilità prevista.
Nota: usiamo 2SLS anche se abbiamo una variabile endogena binaria (che rende il primo stadio un LPM). Segue Angrist & Krueger (2001): "Variabili strumentali e ricerca di identificazione: dall'offerta e dalla domanda agli esperimenti naturali") Abbiamo anche provato la procedura in tre fasi utilizzata in Adams, Almeida e Ferreira (2009): " Comprendere il rapporto tra fondatore-CEO e prestazioni aziendali ”. Quest'ultimo approccio, che consiste in un modello probit seguito da 2SLS, produce coefficienti più piccoli e più sensibili, ma sono ancora molto grandi se interpretati nella metrica 0-1 (circa 9-10). Otteniamo gli stessi risultati con i calcoli manuali come facciamo con l'opzione probit-2sls in ivtreatreg di Cerulli.
etregress/treatreg
?