Che cos'è una variabile strumentale?


36

Le variabili strumentali stanno diventando sempre più comuni nell'economia e nelle statistiche applicate. Per chi non lo sapesse, possiamo avere delle risposte non tecniche alle seguenti domande:

  1. Che cos'è una variabile strumentale?
  2. Quando si vorrebbe impiegare una variabile strumentale?
  3. Come si trova o si sceglie una variabile strumentale?

4
Non pensi che l'articolo di Wikipedia a riguardo sia sufficiente?

1
Domande come questa richiedono un tipo di risposta post wiki / blog. Penso che le domande non debbano richiedere risposte così lunghe.

Non sono sicuro che la cosa giusta da fare sia semplicemente ignorare questa domanda e indirizzare il richiedente al wiki, specialmente durante la beta in cui stiamo cercando di creare il contenuto del sito. Forse chi pone la domanda dovrebbe presentare ciascuna di queste domande individualmente in modo che possano essere affrontate meglio.
Russellpierce,

3
@mbq - l'esempio di Wikipedia difficilmente si qualifica come non tecnico. Dipende molto dal gergo e dalle equazioni.
rolando2,

1
È diventato comune in economia qualche tempo negli anni '80. Anche alcuni biostatici ne hanno sentito parlare e lo applicano nel contesto di modelli di errore di misura, in cui gli strumenti sono strettamente considerati ulteriori misure disponibili. Si qualificano come strumenti nel più ampio contesto econometrico: sono correlati alla variabile di interesse e non sono correlati al suo errore di misurazione.
StasK,

Risposte:


41

[Il seguente forse sembra un po 'tecnico a causa dell'uso delle equazioni ma si basa principalmente sui grafici a freccia per fornire l'intuizione che richiede solo una comprensione molto basilare dell'OLS - quindi non essere respinto.]

Supponiamo di voler stimare l'effetto causale di su dato dal coefficiente stimato per , ma per qualche ragione esiste una correlazione tra la tua variabile esplicativa e il termine di errore:xiyiβ

yi=α+βxi+ϵicorr

Ciò potrebbe essere accaduto perché ci siamo dimenticati di includere un'importante variabile correlata anche con . Questo problema è noto come distorsione da variabile omessa e quindi il tuo non ti darà l'effetto causale (vedi qui per i dettagli). Questo è un caso in cui vorresti usare uno strumento perché solo allora puoi trovare il vero effetto causale.xiβ^

Uno strumento è una nuova variabile che non è correlata con , ma che si correla bene con e che influenza solo attraverso - quindi il nostro strumento è ciò che viene chiamato "esogeno". È come in questo grafico qui:ziϵixiyixi

zixiyiϵi

Quindi, come possiamo usare questa nuova variabile?
Forse ricordi l'idea del tipo ANOVA dietro la regressione in cui hai diviso la variazione totale di una variabile dipendente in una componente spiegata e inspiegabile. Ad esempio, se regredisci sullo strumento,xi

xitotal variation=a+πziexplained variation+ηiunexplained variation

allora sai che la variazione spiegata qui è esogena alla nostra equazione originale perché dipende solo dalla variabile esogena . Quindi, in questo senso, abbiamo diviso il nostro in una parte che possiamo affermare che è certamente esogena (questa è la parte che dipende da ) e una parte inspiegabile che mantiene tutte le cattive variazioni che sono correlate a . Ora prendiamo la parte esogena di questa regressione, la chiamiamo ,zixiziηiϵixi^

xi=a+πzigood variation=x^i+ηibad variation

e inseriscilo nella nostra regressione originale:

yi=α+βx^i+ϵi

Ora poiché non è più correlato con (ricorda, abbiamo "filtrato" questa parte da e l'abbiamo lasciata in ), possiamo costantemente stimare il nostro perché lo strumento ci ha aiutato a rompere la correlazione tra la spiegazione in modo variabile e l'errore. Questo è stato un modo in cui è possibile applicare variabili strumentali. Questo metodo in realtà è chiamato minimi quadrati a 2 stadi, dove la nostra regressione di su è chiamata "primo stadio" e l'ultima equazione qui è chiamata "secondo stadio".x^iϵixiηiβxizi

In termini della nostra immagine originale (lascio fuori per non fare confusione ma ricordo che è lì!), Invece di prendere il percorso diretto ma imperfetto tra a abbiamo fatto un passo intermedio tramiteϵixiyix^i

x^izixiyi

Grazie a questa leggera deviazione della nostra strada verso l'effetto causale siamo stati in grado di stimare costantemente usando lo strumento. Il costo di questa diversione è che i modelli di variabili strumentali sono generalmente meno precisi, nel senso che tendono ad avere errori standard più grandi.β

Come troviamo gli strumenti?
Questa non è una domanda facile perché è necessario fornire un buon esempio del motivo per cui il tuo non sarebbe correlato con - questo non può essere testato formalmente perché il vero errore non è osservato. La sfida principale è quindi quella di trovare qualcosa che può essere plausibilmente visto come esogeno come catastrofi naturali, cambiamenti di politica o talvolta è anche possibile eseguire un esperimento randomizzato. Le altre risposte hanno avuto degli ottimi esempi per questo, quindi non ripeterò questa parte.ϵ iziϵi


10
+1 Sono finalmente grato di leggere una risposta dettagliata anziché un elenco di riferimenti o collegamenti.
whuber

1
Eccellente! Spiego questo ai miei studenti in modo più "mnemonico" poiché: è avvelenato / contaminato da fattori non osservati in . La regressione del primo stadio "pulisce" / succhia il veleno da . Possiamo usare la versione "pulita" di per trovare il coefficiente causale, . ϵ x x βxϵxxβ
MichaelChirico,

C'è un argomento intuitivo per cui la stima 2SLS per è coerente? Quando calcoliamo , stiamo "filtrando" la parte di che è correlata all'errore, ma perché dovrebbe essere che il filtraggio non cambi in un modo che cambia la nostra stima per ? x i x i x i ββx^ixixiβ
user35734

Vedi qui: stats.stackexchange.com/questions/64279/… o potresti voler fare una nuova domanda. Spero che sia di aiuto.
Andy,

@ user35734 non è coerente ma asintoticamente coerente.
Vim,

17

Come statistico medico senza precedenti conoscenze di economia (etr), ho faticato a fare i conti con le variabili strumentali mentre spesso facevo fatica a seguire i loro esempi e non capivo la loro terminologia piuttosto diversa (es. "Endogeneità", "forma ridotta ',' equazione strutturale ',' variabili omesse '). Ecco alcuni riferimenti che ho trovato utili (il primo dovrebbe essere disponibile gratuitamente, ma temo che gli altri probabilmente richiedano un abbonamento):

Consiglierei anche il capitolo 4 di:



7

Non tecnico (di solito è tutto ciò che mi fa bene comunque): ci sono volte in cui X non solo causa Y, ma anche Y causa X. Una variabile strumentale è un dispositivo che può "ripulire" questa relazione disordinata e scomoda in modo che si possano fare le migliori stime dell'effetto di X su Y.

La variabile strumentale viene scelta in virtù delle sue relazioni: è una causa di X, ma, oltre ad agire attraverso X, non ha alcun effetto su Y. Lo strumento (o gli strumenti) viene utilizzato nella Fase 1 per calcolare una nuova "versione "di X, uno che non è in alcun modo una funzione di Y. Questo nuovo" predetto "X viene quindi utilizzato in un secondo stadio, in una regressione più standard, per spiegare / prevedere Y. Da qui il termine regressione dei minimi quadrati a due stadi .

In genere si trova il IV in processi che hanno la precedenza o al di fuori del controllo di X OR Y, come variabili che dipendono da leggi, politiche, atti di natura, ecc.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.