2SLS ma Probit secondo stadio


15

Sto cercando di utilizzare l'analisi delle variabili strumentali per inferire la causalità con i dati osservativi.

Mi sono imbattuto in una regressione a due livelli minimi quadrati (2SLS) che probabilmente affronterà il problema dell'endogeneità nella mia ricerca. Tuttavia, vorrei che il primo stadio fosse OLS e che il secondo stadio fosse probit all'interno della 2SLS. Sulla base della mia lettura e ricerca, ho visto i ricercatori utilizzare 2SLS o probit di primo stadio e OLS di secondo stadio, ma non viceversa, che è ciò che sto cercando di ottenere.

Attualmente sto usando Stata e il comando ivreg in Stata è per un 2SLS dritto.

Risposte:


12

Il tuo caso è meno problematico rispetto al contrario. Le aspettative e gli operatori di proiezioni lineari attraversano un primo stadio lineare (ad es. OLS) ma non attraverso quelli non lineari come probit o logit. Pertanto non è un problema se si regredisce prima la variabile endogena continua sul proprio strumento (i) Z , X i = a + Z i π + η i e quindi si utilizzano i valori adattati in un secondo stadio probit per stimare Pr ( Y i = 1 | X i ) = Pr ( βXZ

Xio=un'+Zio'π+ηio
Pr(Yio=1|X^io)=Pr(βX^io+εio>0)

X^io

// use a toy data set as example
webuse nlswork

// set up the program including 1st and 2nd stage
program my2sls
    reg grade age race tenure
    predict grade_hat, xb

    probit union grade_hat age race
    drop grade_hat
end

// obtain bootstrapped standard errors
bootstrap, reps(100): my2sls

In questo esempio vogliamo stimare l'effetto di anni di istruzione sulla probabilità di far parte di un sindacato. Dato che gli anni di istruzione sono probabilmente endogeni, nella prima fase lo strumentiamo con anni di possesso. Naturalmente, questo non ha alcun senso dal punto di vista dell'interpretazione, ma illustra il codice.

Assicurati solo di usare le stesse variabili di controllo esogeno sia nel primo che nel secondo stadio. Nell'esempio sopra quelli sono invece age, racelo strumento (non sensuale)tenure è presente solo nel primo stadio.


Grazie mille, questo ha risolto il problema che stavo affrontando. Grazie ancora.
Veronica,

1
In realtà la ricerca suggerisce di utilizzare un approccio di funzione di controllo per modelli non lineari come un logit, che sarebbe quello di utilizzare i residui del primo stadio insieme alla variabile endogena, piuttosto che i valori previsti. Anche se sembrano esserci spesso progressi, vedi: stat.wharton.upenn.edu/~zijguo/…
robin.datadrivers

1
Mi dispiace non aver fornito una citazione per confrontare i due approcci per i modelli lineari e non lineari. ncbi.nlm.nih.gov/pmc/articles/PMC2494557
robin.datadrivers

-1 Ho dovuto sottovalutare questa risposta, in quanto non sembra generalmente possibile trasferire l'idea dello stimatore 2SLS a modelli non lineari nel primo e / o secondo stadio. Potrebbe essere vero per il caso del primo stadio LS e del secondo stadio probit (@Andy hai un riferimento per supportare questo?), Ma almeno un avvertimento è in ordine poiché ho visto molte persone fare l'idea 2SLS in tutti i tipi di casi di modelli non lineari in prima e seconda fase e questa è pratica problematica.
Momo,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.