Per rispondere alla tua prima domanda, hai ragione nel dire che la selezione del campione è una forma specifica di endogeneità (vedi Antonakis et al. 2010 per una buona revisione di base dell'endogeneità e dei rimedi comuni), tuttavia non hai ragione nel dire che la probabilità di essere trattati è la variabile endogena, in quanto è la variabile di trattamento stessa ("assegnazione di trattamento non casuale") - piuttosto che la probabilità di essere trattata - che è endogena nella selezione del campione. Ricorda che l'endogeneità si riferisce a una situazione in cui hai identificato erroneamente una relazione causale tra fattore X e fattore Y, quando la "relazione" osservata è in realtà dovuta a un altro fattore Z che influenza sia X che Y. In altre parole, dato un modello di regressione :
yi=β0+β1xi+...+ϵi
l'endogeneità si verifica quando uno o più di uno dei predittori è correlato al termine di errore nel modello. Cioè, quando .Cov(x,ϵ)≠0
Le cause comuni di endogenità includono:
- Variabili omesse (alcune cose che non possiamo misurare)
- Motivazione / scelta
- Capacità / talent
- Auto-selezione
- Errore di misurazione
(vorremmo includere , ma osserviamo solo )x j ∗xjxj∗
- Simultaneità / bidirezionalità (nei bambini di età inferiore a 5 anni, la relazione tra l'indicatore dello stato nutrizionale "peso per età" e se il bambino ha avuto una malattia recente potrebbe essere simultanea.
Diversi tipi di problemi richiedono soluzioni leggermente diverse, che è la differenza tra le correzioni di tipo IV e quelle di Heckman. Naturalmente ci sono differenze nella meccanica di base di questi metodi, ma la premessa è la stessa: che è quella di rimuovere l'endogeneità, idealmente tramite una restrizione di esclusione, cioè uno o più strumenti nel caso di IV o una variabile che influenza la selezione ma non il risultato nel caso di Heckman.
Per rispondere alla tua seconda domanda, devi pensare alle differenze nei tipi di limitazioni dei dati che hanno dato origine allo sviluppo di queste soluzioni. Mi piace pensare che l'approccio della variabile strumentale (IV) sia usato quando una o più variabili sono endogene, e semplicemente non ci sono buoni proxy da applicare nel modello per rimuovere l'endogeneità, ma le covariate e i risultati sono osservati per tutte le osservazioni. Le correzioni di tipo Heckman, d'altra parte, vengono utilizzate quando si ha il troncamento, ovvero le informazioni non vengono osservate per quelle nel campione in cui il valore della variabile di selezione == 0.
L'approccio variabile strumentale (IV)
Pensa al classico esempio econometrico per la regressione IV con lo stimatore dei minimi quadrati a due fasi (2SLS): l'effetto dell'educazione sui guadagni.
Earningsi=β0+β1OwnEdi+ϵi (1)
Qui il livello di rendimento scolastico è endogeno perché è determinato in parte dalla motivazione e dall'abilità dell'individuo, entrambi i quali influenzano anche i guadagni di una persona. La motivazione e la capacità non sono in genere misurate nelle indagini domestiche o economiche. L'equazione 1 può quindi essere scritta per includere esplicitamente motivazione e capacità:
Earningsi=β0+{β1OwnEdi+β2Motivi+β3Abili}+ϵi (2)
Poiché e non sono effettivamente osservati, l'equazione 2 può essere scritta come:A b i lMotivAbil
Earningsi=β0+β1OwnEdi+ui (3),
dove (4).ui=β2Motivi+β3Abili+ϵi
Pertanto, una stima ingenua dell'effetto dell'istruzione sui guadagni tramite OLS sarebbe distorta. Questa parte lo sai già.
In passato, le persone hanno usato l'educazione dei genitori come strumenti per il proprio livello di istruzione della materia, poiché soddisfano i 3 requisiti per uno strumento valido ( ):z
- 𝐶 𝑜 𝑣 ( 𝑧 , 𝑥 ) ≠ 0z deve essere correlato al predittore endogeno - ,Cov(z,x)≠0
- 𝐶 𝑜 𝑣 ( 𝑧 , 𝑦 ) = 0z non può essere direttamente correlato al risultato - eCov(z,y)=0
- z 𝐶 𝑜 𝑣 ( 𝑧 ,z non può essere correlato alla caratteristica non osservabile (u) (ovvero, è esogena) -zCov(z,u)=0
Quando stimate l'educazione della materia ( ) usando l'educazione dei genitori ( e ) nella prima fase e utilizzate il valore previsto dell'educazione ( ) per stimare i nella seconda fase, siete (in termini molto semplicistici) , stimando i base alla porzione di che non è determinata da motivazione / abilità.M o m E d D a d E d ^ O w n E d E a r n i n g s E a r n i n g s O w n E dOwnEdMomEdDadEdOwnEdˆEarningsEarningsOwnEd
Correzioni di tipo Heckman
Come abbiamo stabilito in precedenza, la selezione del campione non casuale è un tipo specifico di endogeneità. In questo caso, la variabile omessa è il modo in cui le persone sono state selezionate nel campione. In genere, quando si riscontra un problema di selezione del campione, il risultato viene osservato solo per coloro per i quali la selezione del campione variable == 1
. Questo problema è anche noto come "troncamento accidentale" e la soluzione è comunemente nota come correzione di Heckman. L'esempio classico in econometria è l'offerta salariale delle donne sposate:
Wagei=β0+β1Educi+β2Experiencei+β3Experience2i+ϵi (5)
Il problema qui è che il è osservato solo per le donne che lavoravano per i salari, quindi uno stimatore ingenuo sarebbe di parte, poiché non sappiamo quale sia l'offerta di salario per coloro che non partecipano alla forza lavoro, la variabile di selezione . L'equazione 5 può essere riscritta per mostrare che è determinata congiuntamente da due modelli latenti:Wages
Wage∗i=Xβ′+ϵi (6)
LaborForce∗i=Zγ′+νi (7)
Cioè, IFF e IFFWage=Wage∗iLaborForce∗i>0Wage=.LaborForce∗i≤0
La soluzione qui è quindi di prevedere la probabilità di partecipazione alla forza lavoro nella prima fase utilizzando un modello probit e la restrizione di esclusione (qui si applicano gli stessi criteri per gli strumenti validi), calcolare il rapporto inverso previsto dei mulini ( ) per ciascuna osservazione e, nella seconda fase, stimare l'offerta salariale utilizzando come predittore nel modello (Wooldridge 2009). Se il coefficiente su è statisticamente uguale a zero, non ci sono prove della selezione del campione (endogeneità) e i risultati OLS sono coerenti e possono essere presentati. Se il coefficiente suλ^λ^λ^λ^ è statisticamente significativamente diverso da zero, sarà necessario riportare i coefficienti dal modello corretto.
Riferimenti
- Antonakis, John, Samuel Bendahan, Philippe Jacquart e Rafael Lalive. 2010. "Sul reclamo causale: una revisione e raccomandazioni." Il Leadership trimestrale 21 (6): 1086-1120. doi: 10.1016 / j.leaqua.2010.10.010.
- Wooldridge, Jeffrey M. 2009. Econometria introduttiva: un approccio moderno. 4a ed. Mason, OH, USA: South-Western, Apprendimento del Cengage.