Questa è la domanda molto standard sulle variabili strumentali dei modelli lineari a singola equazione. Dati i primitivi della tua domanda, l'unica variabile endogena è l' esercizio . Per rispondere a questa particolare domanda, hai bisogno di una variabile esogea, z , che soddisfi due condizioni:
- cov (z, u) = 0.
- Ci deve essere una relazione tra la variabile endogena e questa variabile esogena che stai proponendo, ma che non faceva parte del vero modello postulato (il modello strutturale). In altre parole,
con , e ortogonale a tutte le variabili esplicative (diverse dall'esercizio) e a z.
exercise=β0+β1age+β2weight+β3height+β4male+β5work+ϕz+εexercise
ϕ≠0E(εexercise)=0
Prima di andare avanti, un'osservazione. Per modello strutturale intendo, seguendo la convenzione di Wooldridge e Goldberger, il modello postulato. Cioè, il modello che afferma la relazione causale tra salute e covariate. Questa è una differenza fondamentale e un disaccordo con le risposte precedenti.
Ora, tornando al problema attuale, la condizione 2 è ciò che nella letteratura sulle equazioni simultanee si chiama l'equazione di forma ridotta , che non è altro che una proiezione lineare dell'endogeno su tutte le variabili esogene, tra cui z.
Ora collega il modulo ridotto al tuo modello postulato e otterrai
health=α0+α1age+α2weight+α3height+α4male+α5work+δz+ν
dove , e . Secondo la definizione di proiezione lineare, non è correlato con tutte le variabili esplicative e quindi OLS di quest'ultima equazione produrrà stime coerenti per e , non per il sottostante nel modello vero.
αi=bi+b6βi,∀i∈{1,…,5}δ=b6ϕν=u+b6εexerciseναiδbi
L'identificazione richiede un po 'di manipolazione in forma di matrice ma essenzialmente si riduce alla cosiddetta condizione di rango . Definisci e modo che il tuo modello strutturale sia . Ora definisci . Per condizione 1 (cov (z, u) = 0 in modo che E (z, u) = 0),
Se moltiplichi i lati bot del modello strutturale per e prendi le aspettative che hai
condizione di rango afferma cheb=(b0,…,b6)′x=(1,age,…,exercise)′health=x′b+uz≡(1,age,…,work,z)′
E(zu)=0
zE(zx′)b=E(zy)
E(zx′)è il grado di colonna completo. In questo esempio particolare e date le condizioni su z questo equivale a Quindi abbiamo 6 equazioni in 6 incognite. Quindi esiste un unico la soluzione per il sistema, ovvero è identificata ed equivale a , come desiderato.
rank(E(zx′)=6b[E(zx′)]−1E(zy)
Note: la condizione 1 è utile per ottenere la condizione del momento, ma il modello di forma ridotta con è cruciale per la condizione di rango. Entrambe le condizioni sono normali.ϕ
A questo punto dovrebbe essere chiaro perché ne abbiamo bisogno. Da un lato, senza z lo stimatore OLS del modello vero produrrà stimatori incoerenti non solo per ma per tutti . D'altra parte (e in qualche modo correlati), i nostri parametri sono identificati in modo univoco, quindi siamo certi che stiamo stimando la vera relazione causale come affermato nel nostro vero modello.b6bi
Per quanto riguarda il test, la condizione 2 (z ed esercizio sono parzialmente correlati) può essere testata direttamente e dovresti sempre riportare quel passaggio in contrasto con il commento in una risposta precedente. C'è un'enorme letteratura in relazione a questo passaggio, specialmente la letteratura sugli strumenti deboli.
Tuttavia, la seconda condizione non può essere testata direttamente. A volte potresti invocare la teoria economica per giustificare o fornire ipotesi alternative che supportano l'uso di z.