Stima dei coefficienti di regressione logistica in un progetto caso-controllo quando la variabile di risultato non è stato caso / controllo


10

Considerare i dati di campionamento da una popolazione di dimensioni nel modo seguente: PerNk=1,...,N

  1. Osservare lo stato di "malattia" dell'individuo k

  2. Se hanno la malattia, includili nel campione con probabilità pk1

  3. Se non hanno la malattia, includili con probabilità p_ {k0}pk0 .

Supponiamo di aver osservato una variabile di risultato binaria Yi e il vettore predittore Xi , per i=1,...,n soggetti campionati in questo modo. La variabile di risultato non è lo stato di "malattia". Voglio stimare i parametri del modello di regressione logistica:

log(P(Yi=1|Xi)P(Yi=0|Xi))=α+Xiβ

Tutto quello che mi interessa sono i (log) odds ratio, β . L'intercettazione è irrilevante per me.

La mia domanda è: posso ottenere stime sensate di β ignorando le probabilità di campionamento {pi1,pi0} , i=1,...,n e adattando il modello come se era un normale campione casuale?


Sono quasi certo che la risposta a questa domanda sia "sì". Quello che sto cercando è un riferimento che lo convalida.

Ci sono due ragioni principali per cui sono sicuro della risposta:

  1. Ho fatto molti studi di simulazione e nessuno di loro contraddice questo, e

  2. È semplice dimostrare che, se la popolazione è governata dal modello sopra, il modello che governa i dati campionati è

log(P(Yi=1|Xi)P(Yi=0|Xi))=log(pi1)log(pi0)+α+Xiβ

Se le probabilità di campionamento non dipendessero da , ciò rappresenterebbe un semplice spostamento all'intercettazione e la stima puntuale di sarebbe chiaramente inalterata. Ma, se gli offset sono diversi per ogni persona, questa logica non si applica del tutto, dal momento che otterrai sicuramente una stima dei punti diversa, anche se sospetto che qualcosa di simile lo faccia. βiβ

Correlati: il classico articolo di Prentice e Pyke (1979) afferma che i coefficienti di regressione logistica da un caso-controllo (con stato patologico come risultato) hanno la stessa distribuzione di quelli raccolti da uno studio prospettico. Sospetto che questo stesso risultato si applicherebbe qui, ma devo confessare che non capisco fino in fondo ogni parte del documento.

Grazie in anticipo per eventuali commenti / riferimenti.


1
Affermate che "la variabile di risultato non è lo stato della malattia ". Cosa indica ? Bentornato al CV, tra l'altro. Yi=1
gung - Ripristina Monica

1
Yi è una variabile diversa. Ciò che intendo è che la variabile che determina la probabilità di campionamento (di solito lo stato della malattia in un caso di controllo) non è la stessa della variabile di risultato - pensa all'analisi secondaria di un set di dati. Ad esempio, supponiamo che il campione sia stato generato campionando sistematicamente i tossicodipendenti e un ulteriore set di utenti non farmaceutici (con corrispondenza della frequenza, con alcune covariate), ma la variabile di risultato che si sta studiando è un'altra misura comportamentale. In questo caso lo schema di campionamento è un fastidio. Grazie a proposito!
Macro,

Risposte:


8

Questa è una variazione del modello di selezione in econometria. La validità delle stime utilizzando solo il campione selezionato qui dipende dalla condizione che . Qui è 's stato della malattia. D i iPr(Yi=1Xi,Di=1)=Pr(Yi=1Xi,Di=0)Dii

Per fornire maggiori dettagli, definire le seguenti notazioni: e ; si riferisce al caso in cui è nel campione. Inoltre, supponiamo che sia indipendente da per semplicità. π 0 = Pr ( D i = 0 ) S i = 1 i D i X iπ1=Pr(Di=1)π0=Pr(Di=0)Si=1iDiXi

La probabilità di per un'unità nel campione è secondo la legge delle aspettative ripetute. Supponiamo che lo stato della malattia e altre covariate , il risultato è indipendente da . Di conseguenza, Yi=1Pr ( Y i = 1 X i , S i = 1 )i DiXiYiSi Pr ( Y i = 1 X i , S i = 1 )

Pr(Yi=1Xi,Si=1)=E(YiXi,Si=1)=E{E(YiXi,Di,Si=1)Xi,Si=1}=Pr(Di=1Si=1)Pr(Yi=1Xi,Di=1,Si=1)+Pr(Di=0Si=1)Pr(Yi=1Xi,Di=0,Si=1),
DiXiYiSiPr(
Pr(Yi=1Xi,Si=1)=Pr(Di=1Si=1)Pr(Yi=1Xi,Di=1)+Pr(Di=0Si=1)Pr(Yi=1Xi,Di=0).
È facile vedere che Qui e sono come definito il tuo schema di campionamento. Così, pi1pi0Pr(Yi=1Xi,Si=1)=π1pi1
Pr(Di=1Si=1)=π1pi1π1pi1+π0pi0 and Pr(Di=0Si=1)=π0pi0π1pi1+π0pi0.
pi1pi0
Pr(Yi=1Xi,Si=1)=π1pi1π1pi1+π0pi0Pr(Yi=1Xi,Di=1)+π0pi0π1pi1+π0pi0Pr(Yi=1Xi,Di=0).
Se , abbiamo e puoi omettere il problema di selezione del campione. D'altra parte, se , in generale. Come caso particolare, considera il modello logit, Pr(Yi=1Xi,Di=1)=Pr(Yi=1Xi,Di=0)
Pr(Yi=1Xi,Si=1)=Pr(Yi=1Xi),
Pr(Yi=1Xi,Di=1)Pr(Yi=1Xi,Di=0)
Pr(Yi=1Xi,Si=1)Pr(Yi=1Xi)
Pr(Yi=1Xi,Di=1)=eXiα1+eXiα and Pr(Yi=1Xi,Di=0)=eXiβ1+eXiβ.
Anche quando e sono costanti su , la distribuzione risultante non manterrà la formazione del logit. Ancora più importante, le interpretazioni dei parametri sarebbero totalmente diverse. Speriamo che gli argomenti sopra riportati aiutino a chiarire un po 'il tuo problema.pi1pi0i

Si è tentati di includere come variabile esplicativa aggiuntiva e stimare il modello in base a . Per giustificare la validità dell'uso di , dobbiamo dimostrare che , che equivale alla condizione che è una statistica sufficiente di . Senza ulteriori informazioni sul processo di campionamento, non sono sicuro che sia vero. Usiamo una notazione astratta. La variabile di osservabilità può essere vista come una funzione casuale di e le altre variabili casuali, diciamoDiPr(YiXi,Di)Pr(YiXi,Di)Pr(YiXi,Di,Si=1)=Pr(YiXi,Di)DiSiSiDiZi . Indica . Se è indipendente da base a e , abbiamo dalla definizione di indipendenza. Tuttavia, se non è indipendente da dopo il condizionamento su e , contiene in modo intuitivo alcune informazioni rilevanti su e in generale non è previstoSi=S(Di,Zi)ZiYiXiDiPr(YiXi,Di,S(Di,Zi))=Pr(YiXi,Di)ZiYiXiDiZiYiPr(YiXi,Di,S(Di,Zi))=Pr(YiXi,Di) . Pertanto, nel caso "comunque", l'ignoranza della selezione del campione potrebbe essere fuorviante per inferenza. Non ho molta familiarità con la letteratura sulla selezione dei campioni in econometria. Vorrei raccomandare il capitolo 16 delle Microeconometrics: methods and applications' by Cameron and Trivedi (especially the Roy model in that chapter). Also G. S. Maddala's classic bookvariabili qualitative e dipendenti limitate nell'econometria "è un trattamento sistematico delle questioni relative alla selezione dei campioni e agli esiti discreti.


2
Grazie. Questa è un'ottima risposta e ha perfettamente senso. Nella mia applicazione, il presupposto che non è realistico. Ma sarebbe altrettanto utile aggiungere come predittore e considerare la distribuzione . Usando una derivazione simile, penso che puoi dimostrare che se , allora stai bene. Questo è un presupposto ragionevole nel mio caso. Cosa ne pensi? A proposito, ti capita di avere dei riferimenti che menzionano questo problema? Non ho familiarità con la letteratura di econometria. P(Yi|Xi,Di=1)=P(Yi|Xi,Di=0)DiP(Yi|Xi,Di)P(Yi=1|Xi,Di,Si=1)=P(Yi=1|Xi,Di,Si=0)
Macro,

Mi sento a mio agio nel pensare che il processo di selezione sia una prova di bernoulli, ovvero In base a questi presupposti che generano dati, questo processo di bernoulli è condizionatamente indipendente da , quindi penso che stiamo bene. Apprezzo i tuoi sforzi e approfondimenti su questo problema e sto accettando la risposta. Supponendo che nessuno arrivi con l'esatto riferimento che sto cercando (preferirei semplicemente "citare" questo problema piuttosto che divagare con una discussione estesa), ti assegnerò anche la generosità. Saluti. Y i
Si|Di=d,Xi=xBernoulli(p(x,d))
Yi
Macro,

Questo processo di selezione si adatta alla tua strategia. Sulla base di un tale problema di selezione, il problema diventa un esempio di scomparsa casuale (MAR) nella documentazione dei dati mancanti. Grazie per il tuo premio.
semibruin,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.