Modelli a due stadi: differenza tra i modelli di Heckman (per gestire la selezione dei campioni) e le variabili strumentali (per gestire l'endogenità)


16

Sto cercando di aggirare la differenza tra la selezione del campione e l'endogeneità e, a sua volta, come i modelli di Heckman (per gestire la selezione del campione) differiscono dalle regressioni variabili strumentali (per gestire l'endogeneità).

È corretto affermare che la selezione del campione è una forma specifica di endogeneità, in cui la variabile endogena è la probabilità di essere trattata?

Inoltre, mi sembra che sia i modelli di Heckman sia la regressione IV siano modelli a 2 stadi, in cui il primo stadio prevede la probabilità di essere trattati - presumo che debbano differire in termini di cosa stanno facendo empiricamente, i loro obiettivi e ipotesi, ma come?

Risposte:


23

Per rispondere alla tua prima domanda, hai ragione nel dire che la selezione del campione è una forma specifica di endogeneità (vedi Antonakis et al. 2010 per una buona revisione di base dell'endogeneità e dei rimedi comuni), tuttavia non hai ragione nel dire che la probabilità di essere trattati è la variabile endogena, in quanto è la variabile di trattamento stessa ("assegnazione di trattamento non casuale") - piuttosto che la probabilità di essere trattata - che è endogena nella selezione del campione. Ricorda che l'endogeneità si riferisce a una situazione in cui hai identificato erroneamente una relazione causale tra fattore X e fattore Y, quando la "relazione" osservata è in realtà dovuta a un altro fattore Z che influenza sia X che Y. In altre parole, dato un modello di regressione :

yi=β0+β1xi+...+ϵi

l'endogeneità si verifica quando uno o più di uno dei predittori è correlato al termine di errore nel modello. Cioè, quando .Cov(x,ϵ)0

Le cause comuni di endogenità includono:

  1. Variabili omesse (alcune cose che non possiamo misurare)
    • Motivazione / scelta
    • Capacità / talent
    • Auto-selezione
  2. Errore di misurazione (vorremmo includere , ma osserviamo solo )x jxjxj
  3. Simultaneità / bidirezionalità (nei bambini di età inferiore a 5 anni, la relazione tra l'indicatore dello stato nutrizionale "peso per età" e se il bambino ha avuto una malattia recente potrebbe essere simultanea.

Diversi tipi di problemi richiedono soluzioni leggermente diverse, che è la differenza tra le correzioni di tipo IV e quelle di Heckman. Naturalmente ci sono differenze nella meccanica di base di questi metodi, ma la premessa è la stessa: che è quella di rimuovere l'endogeneità, idealmente tramite una restrizione di esclusione, cioè uno o più strumenti nel caso di IV o una variabile che influenza la selezione ma non il risultato nel caso di Heckman.

Per rispondere alla tua seconda domanda, devi pensare alle differenze nei tipi di limitazioni dei dati che hanno dato origine allo sviluppo di queste soluzioni. Mi piace pensare che l'approccio della variabile strumentale (IV) sia usato quando una o più variabili sono endogene, e semplicemente non ci sono buoni proxy da applicare nel modello per rimuovere l'endogeneità, ma le covariate e i risultati sono osservati per tutte le osservazioni. Le correzioni di tipo Heckman, d'altra parte, vengono utilizzate quando si ha il troncamento, ovvero le informazioni non vengono osservate per quelle nel campione in cui il valore della variabile di selezione == 0.

L'approccio variabile strumentale (IV)

Pensa al classico esempio econometrico per la regressione IV con lo stimatore dei minimi quadrati a due fasi (2SLS): l'effetto dell'educazione sui guadagni.

Earningsi=β0+β1OwnEdi+ϵi (1)

Qui il livello di rendimento scolastico è endogeno perché è determinato in parte dalla motivazione e dall'abilità dell'individuo, entrambi i quali influenzano anche i guadagni di una persona. La motivazione e la capacità non sono in genere misurate nelle indagini domestiche o economiche. L'equazione 1 può quindi essere scritta per includere esplicitamente motivazione e capacità:

Earningsi=β0+{β1OwnEdi+β2Motivi+β3Abili}+ϵi (2)

Poiché e non sono effettivamente osservati, l'equazione 2 può essere scritta come:A b i lMotivAbil

Earningsi=β0+β1OwnEdi+ui (3),

dove (4).ui=β2Motivi+β3Abili+ϵi

Pertanto, una stima ingenua dell'effetto dell'istruzione sui guadagni tramite OLS sarebbe distorta. Questa parte lo sai già.

In passato, le persone hanno usato l'educazione dei genitori come strumenti per il proprio livello di istruzione della materia, poiché soddisfano i 3 requisiti per uno strumento valido ( ):z

  1. 𝐶 𝑜 𝑣 ( 𝑧 , 𝑥 ) 0z deve essere correlato al predittore endogeno - ,𝐶𝑜𝑣(𝑧,𝑥)0
  2. 𝐶 𝑜 𝑣 ( 𝑧 , 𝑦 ) = 0z non può essere direttamente correlato al risultato - e𝐶𝑜𝑣(𝑧,𝑦)=0
  3. z 𝐶 𝑜 𝑣 ( 𝑧 ,z non può essere correlato alla caratteristica non osservabile (u) (ovvero, è esogena) -z𝐶𝑜𝑣(𝑧,𝑢)=0

Quando stimate l'educazione della materia ( ) usando l'educazione dei genitori ( e ) nella prima fase e utilizzate il valore previsto dell'educazione ( ) per stimare i nella seconda fase, siete (in termini molto semplicistici) , stimando i base alla porzione di che non è determinata da motivazione / abilità.M o m E d D a d E d ^ O w n E d E a r n i n g s E a r n i n g s O w n E dOwnEdMomEdDadEdOwnEd^EarningsEarningsOwnEd

Correzioni di tipo Heckman

Come abbiamo stabilito in precedenza, la selezione del campione non casuale è un tipo specifico di endogeneità. In questo caso, la variabile omessa è il modo in cui le persone sono state selezionate nel campione. In genere, quando si riscontra un problema di selezione del campione, il risultato viene osservato solo per coloro per i quali la selezione del campione variable == 1. Questo problema è anche noto come "troncamento accidentale" e la soluzione è comunemente nota come correzione di Heckman. L'esempio classico in econometria è l'offerta salariale delle donne sposate:

Wagei=β0+β1Educi+β2Experiencei+β3Experiencei2+ϵi (5)

Il problema qui è che il è osservato solo per le donne che lavoravano per i salari, quindi uno stimatore ingenuo sarebbe di parte, poiché non sappiamo quale sia l'offerta di salario per coloro che non partecipano alla forza lavoro, la variabile di selezione . L'equazione 5 può essere riscritta per mostrare che è determinata congiuntamente da due modelli latenti:Wages

Wagei=Xβ+ϵi (6)

LaborForcei=Zγ+νi (7)

Cioè, IFF e IFFWage=WageiLaborForcei>0Wage=.LaborForcei0

La soluzione qui è quindi di prevedere la probabilità di partecipazione alla forza lavoro nella prima fase utilizzando un modello probit e la restrizione di esclusione (qui si applicano gli stessi criteri per gli strumenti validi), calcolare il rapporto inverso previsto dei mulini ( ) per ciascuna osservazione e, nella seconda fase, stimare l'offerta salariale utilizzando come predittore nel modello (Wooldridge 2009). Se il coefficiente su è statisticamente uguale a zero, non ci sono prove della selezione del campione (endogeneità) e i risultati OLS sono coerenti e possono essere presentati. Se il coefficiente suλ^λ^λ^λ^ è statisticamente significativamente diverso da zero, sarà necessario riportare i coefficienti dal modello corretto.

Riferimenti

  1. Antonakis, John, Samuel Bendahan, Philippe Jacquart e Rafael Lalive. 2010. "Sul reclamo causale: una revisione e raccomandazioni." Il Leadership trimestrale 21 (6): 1086-1120. doi: 10.1016 / j.leaqua.2010.10.010.
  2. Wooldridge, Jeffrey M. 2009. Econometria introduttiva: un approccio moderno. 4a ed. Mason, OH, USA: South-Western, Apprendimento del Cengage.

1
Nella correzione di tipo Heckman, come interpretare i valori inversi del rapporto Mills per ogni osservazione? Indica il numero di persone che lavoreranno dalla popolazione non lavoratrice in un dato momento?
Quirik,

2

Si dovrebbe fare una distinzione tra il modello specifico di selezione dei campioni di Heckman (dove si osserva solo un campione) e le correzioni di tipo Heckman per l'autoselezione, che può funzionare anche nel caso in cui si osservino i due campioni. Quest'ultimo è indicato come approccio della funzione di controllo e ammonta a includere nel secondo stadio un termine che controlla l'endogeneità.

Cerchiamo di avere un caso standard con una variabile fittizia endogenea D, uno strumento Z:

Y=β+β1D+ϵ
D=γ+γ1Z+u

Entrambi gli approcci eseguono un primo stadio (D su Z). IV usa un OLS standard (anche se D è un manichino) Heckman usa un probit. Ma oltre a ciò, la differenza principale sta nel modo in cui usano questo primo stadio nell'equazione principale:

  • IV : spezzare l'endogeneità decomponendo D in parti non correlate a , dato dalla previsione di D:ϵY=β+β1D^+ϵ
  • Heckman : modella l'endogeneità: mantieni la D endogena, ma aggiungi una funzione dei valori previsti del primo stadio. In questo caso, è una funzione piuttosto complicata: dove è il rapporto inverso di MillsY=β+β1D+β2[λ(D^)λ(D^)]+ϵλ()

Il vantaggio della procedura di Heckman è che fornisce un test diretto per l'endogeneità: il coefficiente . Dall'altro lato, la procedura di Heckman si basa sul presupposto della normalità congiunta degli errori, mentre la IV non fa alcuna ipotesi del genere.β2

Quindi hai la storia standard che con errori normali, la funzione di controllo sarà più efficiente (specialmente se si usa l'MLE invece del doppio passaggio mostrato qui) rispetto al IV, ma che se il presupposto non regge, IV sarebbe meglio. Man mano che i ricercatori sono diventati più sospettosi sull'assunzione della normalità, il IV viene usato più spesso.


0

Da Heckman, Urzua e Vytlacil (2006):

Esempio di distorsione di selezione : considerare gli effetti di una politica sull'esito di un paese (ad es. PIL). Se i paesi che avrebbero fatto bene in termini di non osservabili anche in assenza della politica sono quelli che hanno adottato la politica, le stime OLS sono distorte.

Sono stati adottati due approcci principali per risolvere questo problema: (a) modelli di selezione e (b) modelli variabili strumentali.

L'approccio di selezione modella i livelli di mezzi condizionali. L'approccio IV modella le pendenze dei mezzi condizionati. IV non identifica le costanti stimate nei modelli di selezione.

L'approccio IV non condiziona su D (il trattamento). Lo stimatore di selezione (funzione di controllo) identifica i mezzi condizionali usando le funzioni di controllo.

Quando si utilizzano le funzioni di controllo con ipotesi di curvatura, non è necessario un limite di esclusione (non è necessario ) nel modello di selezione. Assumendo una forma funzionale per la distribuzione dei termini di errore, si esclude la possibilità che la media condizionale dell'equazione del risultato sia uguale alla funzione di controllo condizionale, e quindi è possibile correggere la selezione senza restrizioni di esclusione. Vedi anche Heckman e Navarro (2004).ZX

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.