Questa è una variazione del modello di selezione in econometria. La validità delle stime utilizzando solo il campione selezionato qui dipende dalla condizione che
. Qui è 's stato della malattia. D i iPr(Yi=1∣Xi,Di=1)=Pr(Yi=1∣Xi,Di=0)Dii
Per fornire maggiori dettagli, definire le seguenti notazioni:
e ; si riferisce al caso in cui è nel campione. Inoltre, supponiamo che sia indipendente da per semplicità. π 0 = Pr ( D i = 0 ) S i = 1 i D i X iπ1=Pr(Di=1)π0=Pr(Di=0)Si=1iDiXi
La probabilità di per un'unità nel campione è
secondo la legge delle aspettative ripetute. Supponiamo che lo stato della malattia e altre covariate , il risultato
è indipendente da . Di conseguenza,
Yi=1Pr ( Y i = 1 ∣ X i , S i = 1 )i DiXiYiSi Pr ( Y i = 1 ∣ X i , S i = 1 )
Pr(Yi=1∣Xi,Si=1)===E(Yi∣Xi,Si=1)E{E(Yi∣Xi,Di,Si=1)∣Xi,Si=1}Pr(Di=1∣Si=1)Pr(Yi=1∣Xi,Di=1,Si=1)+Pr(Di=0∣Si=1)Pr(Yi=1∣Xi,Di=0,Si=1),
DiXiYiSiPr(Pr(Yi=1∣Xi,Si=1)=Pr(Di=1∣Si=1)Pr(Yi=1∣Xi,Di=1)+Pr(Di=0∣Si=1)Pr(Yi=1∣Xi,Di=0).
È facile vedere che
Qui e sono come definito il tuo schema di campionamento. Così,
pi1pi0Pr(Yi=1∣Xi,Si=1)=π1pi1Pr(Di=1∣Si=1)=π1pi1π1pi1+π0pi0 and Pr(Di=0∣Si=1)=π0pi0π1pi1+π0pi0.
pi1pi0Pr(Yi=1∣Xi,Si=1)=π1pi1π1pi1+π0pi0Pr(Yi=1∣Xi,Di=1)+π0pi0π1pi1+π0pi0Pr(Yi=1∣Xi,Di=0).
Se , abbiamo
e puoi omettere il problema di selezione del campione. D'altra parte, se ,
in generale. Come caso particolare, considera il modello logit,
Pr(Yi=1∣Xi,Di=1)=Pr(Yi=1∣Xi,Di=0)Pr(Yi=1∣Xi,Si=1)=Pr(Yi=1∣Xi),
Pr(Yi=1∣Xi,Di=1)≠Pr(Yi=1∣Xi,Di=0)Pr(Yi=1∣Xi,Si=1)≠Pr(Yi=1∣Xi)
Pr(Yi=1∣Xi,Di=1)=eX′iα1+eX′iα and Pr(Yi=1∣Xi,Di=0)=eX′iβ1+eX′iβ.
Anche quando e sono costanti su , la distribuzione risultante non manterrà la formazione del logit. Ancora più importante, le interpretazioni dei parametri sarebbero totalmente diverse. Speriamo che gli argomenti sopra riportati aiutino a chiarire un po 'il tuo problema.
pi1pi0i
Si è tentati di includere come variabile esplicativa aggiuntiva e stimare il modello in base a . Per giustificare la validità dell'uso di , dobbiamo dimostrare che , che equivale alla condizione che è una statistica sufficiente di . Senza ulteriori informazioni sul processo di campionamento, non sono sicuro che sia vero. Usiamo una notazione astratta. La variabile di osservabilità può essere vista come una funzione casuale di e le altre variabili casuali, diciamoDiPr(Yi∣Xi,Di)Pr(Yi∣Xi,Di)Pr(Yi∣Xi,Di,Si=1)=Pr(Yi∣Xi,Di)DiSiSiDiZi . Indica . Se
è indipendente da base a e , abbiamo
dalla definizione di indipendenza. Tuttavia, se non è indipendente da dopo il condizionamento su e ,
contiene in modo intuitivo alcune informazioni rilevanti su
e in generale non è previstoSi=S(Di,Zi)ZiYiXiDiPr(Yi∣Xi,Di,S(Di,Zi))=Pr(Yi∣Xi,Di)ZiYiXiDiZiYiPr(Yi∣Xi,Di,S(Di,Zi))=Pr(Yi∣Xi,Di) . Pertanto, nel caso "comunque", l'ignoranza della selezione del campione potrebbe essere fuorviante per inferenza. Non ho molta familiarità con la letteratura sulla selezione dei campioni in econometria. Vorrei raccomandare il capitolo 16 delle Microeconometrics: methods and applications' by Cameron
and Trivedi (especially the Roy model in that chapter). Also G. S.
Maddala's classic book
variabili qualitative e dipendenti limitate nell'econometria "è un trattamento sistematico delle questioni relative alla selezione dei campioni e agli esiti discreti.