Perché usare un DV ritardato come variabile strumentale?


12

Ho ereditato alcuni codici di analisi dei dati che, non essendo un econometrico, faccio fatica a capire. Un modello esegue una regressione di variabili strumentali con il seguente comando Stata

ivreg my_dv var1 var2 var3 (L.my_dv = D2.my_dv D3.my_dv D4.my_dv)

Questo set di dati è un pannello con più osservazioni sequenziali per questo set di variabili.

Perché questo codice utilizza i valori ritardati del DV come strumenti? A quanto ho capito (dallo scavare in un vecchio libro di testo), la stima IV viene utilizzata quando c'è un problema a causa della correlazione di un regressore con il termine di errore. Tuttavia, nulla viene menzionato nella scelta dei ritardi del DV come strumenti.

Un commento su questa riga del codice menziona "causalità". Qualsiasi aiuto per capire quale fosse l'obiettivo qui sarebbe il benvenuto.


Dalla tua domanda potresti leggere un codice leggermente sbagliato. La sintassi sta usando le differenze come "strumenti" per stimare il ritardo della variabile dipendente.
Andy W,

lara: potresti modificare la tua domanda per spiegare in termini semplici il significato del codice frammentato?
user603

Risposte:


7

Modifica: dato il chiarimento sul codice fornito da Andy W di seguito, ho modificato la mia risposta per rispondere meglio alla domanda. Troverai la vecchia versione della mia risposta sotto quella attuale.

Sembra che il tuo codice sia un tentativo maldestro di fare da DIY lo stimatore Arellano-Bond (assumendo stime di Ivreg con 2SOLS). Puoi trovare maggiori dettagli sull'uso e la logica dello stimatore A / B in questo bel documento di revisione e in questa introduzione più ampia.

In poche parole e entro 3 righe: sebbene lo stimatore A / B sia effettivamente uno stimatore IV (generalizzato), non viene utilizzato per affrontare alcun problema di causalità. Le IV in questo contesto sono utilizzate per fornire una stima efficiente del coefficiente AR nel contesto dei dati del panel.

Vorrei raccomandare di non reinventare la ruota qui, e invece di utilizzare la cassetta degli attrezzi pronta per eseguire tali stime. Per era, è possibile utilizzare il pacchetto XTABOND2 (o XTABOND se si esegue STAT11).


vecchia risposta:

Un semplice esempio ti aiuterà qui. Supponiamo di avere due variabili e campionate nel tempo in modo tale che la correlazione tra e sia molto alta. un'affermazione su causa ma sfortunatamente esiste una teoria competitiva e credibile molto buona in base alla quale causa .y t x t y t x t y t y t x txtytxtytxtytytxt

Per districare i due modelli concorrenti, si regredisce su (anziché ). Spesso si perderà con precisione (cioè la correlazione tra variabili campionate in momenti diversi è generalmente inferiore alla correlazione tra variabili campionate contemporaneamente).x t - 1 x tytxt1xt

Il modo in cui i due modelli concorrenti - e - sono ora districati è che, presumibilmente, non esiste una buona teoria in base alla quale una da una un periodo fa può essere causato da una corrente ("il passato non può essere causato dal futuro"), escludendo il secondo senso di causalità. x t - 1y t x yytxt1xt1ytxy

Nota che l'uso di questo trucco è valido solo se entrambe le variabili ( e sono stazionarie ).x t - 1 I ( 0 )ytxt1I(0)


+1 Concordi con questa interpretazione sull'aspetto simile al fai-da-te Arellano-Bond. NB: Ho scoperto che Arellano-Bond è degno di fiducia solo quando il numero di unità trasversali è molto elevato, come in molte centinaia. Arellano suggerisce tanto nei suoi articoli e nel suo libro di testo indicando che la coerenza è nel numero di unità della sezione trasversale e che il tasso di convergenza non è poi così rapido.
Cyrus S,

5

Non conosco Stata, quindi non posso commentare il modello specifico. Ma l'uso di variabili ritardate è un approccio abbastanza comune quando si tratta di distorsioni di simultaneità in generale e di creazione di variabili strumentali in particolare.

Supponi di avere un feedback tra due variabili nel tuo modello: la variabile indipendente (come il prezzo) e la variabile dipendente (come la quantità). Quindi entrambi sono endogene (le loro cause sorgono all'interno del modello) e le perturbazioni al termine dell'errore influenzeranno entrambe le variabili.

Per risolvere questo problema, si desidera rendere la variabile indipendente (prezzo) esogenea in modo che le perturbazioni dell'errore influenzino solo la variabile dipendente (quantità). Ciò si ottiene creando nuove variabili esogene regredendo sul prezzo le altre variabili esogene nel modello. Queste nuove variabili esogene sono le tue variabili strumentali (IV). Le IV sono derivate da termini esogene e quindi non correlate all'errore.

Ma per fare questo, devi capire quali variabili sono esogene in modo che possano essere utilizzate per derivare i IV. Possiamo notare che le variabili ritardate "si sono verificate" in passato e quindi non possono essere correlate all'errore nel presente. Le variabili ritardate sono quindi esogene e diventano candidati convenienti per derivare IV. (Tuttavia, si noti che l'argomento precedente non riesce quando gli errori sono autocorrelati.)

Una buona introduzione e un riferimento a questo è l' econometria introduttiva: un approccio moderno di Wooldridge.


5

Per coloro che non hanno familiarità con il seguente frammento di codice di Stata, l'OP ha fornito

ivreg my_dv var1 var2 var3 (L.my_dv = D2.my_dv D3.my_dv D4.my_dv)

questa equazione può essere letta come

Yt=α+β1(Var1)+β2(Var1)+β3(Var1)+β4(Y~t1)

dove è stimato daY~t1

Y~t1=α+Z1(Δ2Yt)+Z2(Δ3Yt)+Z3(Δ4Yt)

(ovvero il primo stadio dell'equazione IV si trova tra parentesi nel codice Stata)

I delta rappresentano le differenze del secondo, terzo e quarto ordine e vengono utilizzati come strumenti esclusi per stimare il ritardo della variabile dipendente.

Nel codice Stata, L.indica che la variabile è in ritardo di e indica le differenze del primo ordine di quella variabile, e quindi indica la differenza del secondo ordine.t1D.D2.

Inizialmente non riuscivo a pensare a nessun ragionamento logico per cui qualcuno avrebbe fatto questo. Ma Kwak ha sottolineato (facendo riferimento a questo documento ) che il metodo Arellano-Bond utilizza le differenze come strumenti per stimare la componente auto-regressiva del modello. (Anche inizialmente avevo ipotizzato che le differenze avrebbero avuto un effetto solo se la serie non fosse stazionaria, che Bond afferma in quel documento collegato che le differenze saranno strumenti deboli solo nel caso in cui la serie sia una passeggiata casuale, a pag. 21 )

Come suggerimenti su ulteriore materiale di lettura come introduzione a variabili strumentali,

Un altro poster di questa risposta (Charlie) collegato ad alcune diapositive che ha preparato che mi piace e che suggerirebbe che valga la pena cercare un'introduzione alle variabili strumentali. Vorrei anche suggerire questo powerpoint a un mio professore preparato per un seminario come introduzione. Come ultimo suggerimento per chiunque venga istruito a saperne di più sulle variabili strumentali, dovresti cercare il lavoro di Joshua Angrist.

Ecco la mia risposta iniziale


Sebbene sia d'accordo con tutto ciò che Kwak e ars hanno affermato, non riesco ancora a pensare a nessun motivo per cui qualcuno dovrebbe usare le differenze della variabile dipendente come strumenti per stimare il ritardo della variabile dipendente (se le persone non conoscono il codice Stata, il L.indica che quella variabile è in ritardo di e indica le differenze del primo ordine di quella variabile, e quindi indica la differenza del secondo ordine).t1D.D2.

In tutte le applicazioni che ho visto, le persone usano il ritardo di variabili indipendenti come strumenti per stimare il ritardo della variabile dipendente (per motivi di cui parla). Ma ciò si basa sul presupposto che le variabili indipendenti ritardate siano esogene al termine dell'errore nel periodo di tempo in cui vengono applicate.

Non conosco alcun ragionamento in cui le differenze della variabile dipendente sarebbero considerate esogene. Per quanto ne so, non è accettata la pratica di differenziare solo un lato dell'equazione e produrrebbe risultati piuttosto illogici ( ecco un documento che critica qualcuno sulla situazione inversa in cui includevano un livello di variabili come predittore di una serie differenziata.) Se riorganizzi i termini nell'equazione IV, in realtà sembra simile a un test Dickey Fuller aumentato.

Mentre la risposta più semplice sarebbe quella di chiedere alla persona che ha scritto il codice, qualcuno può dare un esempio in cui questa procedura sarebbe accettabile o qualsiasi situazione in cui questa procedura restituirebbe risultati significativi? Come non riesco a pensare ad alcun ragionamento logico per cui le differenze avrebbero un effetto sui livelli tranne nel caso in cui la serie non sia stazionaria.


Ciao Andy. Non conosco il codice di Era. Ecco perché non menziono il codice inserito nella mia risposta, che deve essere inteso come una risposta alla parte della domanda formulata in inglese.
user603

@kwak - Non stavo criticando il tuo post, sono d'accordo con tutto quello che hai detto. Mi chiedevo semplicemente se esistesse qualche logica sul perché qualcuno avrebbe usato le differenze come strumenti di cui non ero a conoscenza. Non riesco a immaginare alcuna situazione in cui le differenze soddisferebbero nessuno dei requisiti per tale procedura.
Andy W,

Ciao Andy:> non ho preso il tuo commento come critico. Il tuo post evidenzia un aspetto chiave della domanda che né Rob né io (certo) abbiamo capito. Semmai, illustra l'importanza della collaborazione.
user603

+1. Non ho visto tutto questo in precedenza - Grazie per aver notato il problema e il corso crash / mini sulla notazione. Ho preso il tuo primo commento per suggerire che l'interpretazione era sbagliata e ho risposto in senso molto generale. Sono contento che tu sia stato più persistente e che il kwak l'abbia capito.
ars
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.