[Il seguente forse sembra un po 'tecnico a causa dell'uso delle equazioni ma si basa principalmente sui grafici a freccia per fornire l'intuizione che richiede solo una comprensione molto basilare dell'OLS - quindi non essere respinto.]
Supponiamo di voler stimare l'effetto causale di su dato dal coefficiente stimato per , ma per qualche ragione esiste una correlazione tra la tua variabile esplicativa e il termine di errore:xiyiβ
yi=α+βxi+↖corrϵi↗
Ciò potrebbe essere accaduto perché ci siamo dimenticati di includere un'importante variabile correlata anche con . Questo problema è noto come distorsione da variabile omessa e quindi il tuo non ti darà l'effetto causale (vedi qui per i dettagli). Questo è un caso in cui vorresti usare uno strumento perché solo allora puoi trovare il vero effetto causale.xiβˆ
Uno strumento è una nuova variabile che non è correlata con , ma che si correla bene con e che influenza solo attraverso - quindi il nostro strumento è ciò che viene chiamato "esogeno". È come in questo grafico qui:ziϵixiyixi
zi→xi↑ϵi→↗yi
Quindi, come possiamo usare questa nuova variabile?
Forse ricordi l'idea del tipo ANOVA dietro la regressione in cui hai diviso la variazione totale di una variabile dipendente in una componente spiegata e inspiegabile. Ad esempio, se regredisci sullo strumento,xi
xitotal variation=a+πziexplained variation+ηiunexplained variation
allora sai che la variazione spiegata qui è esogena alla nostra equazione originale perché dipende solo dalla variabile esogena . Quindi, in questo senso, abbiamo diviso il nostro in una parte che possiamo affermare che è certamente esogena (questa è la parte che dipende da ) e una parte inspiegabile che mantiene tutte le cattive variazioni che sono correlate a . Ora prendiamo la parte esogena di questa regressione, la chiamiamo ,zixiziηiϵixiˆ
xi=a+πzigood variation=xˆi+ηibad variation
e inseriscilo nella nostra regressione originale:
yi=α+βxˆi+ϵi
Ora poiché non è più correlato con (ricorda, abbiamo "filtrato" questa parte da e l'abbiamo lasciata in ), possiamo costantemente stimare il nostro perché lo strumento ci ha aiutato a rompere la correlazione tra la spiegazione in modo variabile e l'errore. Questo è stato un modo in cui è possibile applicare variabili strumentali. Questo metodo in realtà è chiamato minimi quadrati a 2 stadi, dove la nostra regressione di su è chiamata "primo stadio" e l'ultima equazione qui è chiamata "secondo stadio".xˆiϵixiηiβxizi
In termini della nostra immagine originale (lascio fuori per non fare confusione ma ricordo che è lì!), Invece di prendere il percorso diretto ma imperfetto tra a abbiamo fatto un passo intermedio tramiteϵixiyixˆi
zi→xi↗→xˆi↓yi
Grazie a questa leggera deviazione della nostra strada verso l'effetto causale siamo stati in grado di stimare costantemente usando lo strumento. Il costo di questa diversione è che i modelli di variabili strumentali sono generalmente meno precisi, nel senso che tendono ad avere errori standard più grandi.β
Come troviamo gli strumenti?
Questa non è una domanda facile perché è necessario fornire un buon esempio del motivo per cui il tuo non sarebbe correlato con - questo non può essere testato formalmente perché il vero errore non è osservato. La sfida principale è quindi quella di trovare qualcosa che può essere plausibilmente visto come esogeno come catastrofi naturali, cambiamenti di politica o talvolta è anche possibile eseguire un esperimento randomizzato. Le altre risposte hanno avuto degli ottimi esempi per questo, quindi non ripeterò questa parte.ϵ iziϵi