Regressione di Poisson per stimare il rischio relativo di esiti binari


42

Breve riassunto

Perché è più comune che la regressione logistica (con odds ratio) sia utilizzata negli studi di coorte con esiti binari, al contrario della regressione di Poisson (con rischi relativi)?

sfondo

Nella mia esperienza, i corsi di statistica e laurea in epidemiologia universitari e universitari insegnano generalmente che la regressione logistica dovrebbe essere utilizzata per modellare i dati con esiti binari, con stime del rischio riportate come rapporti di probabilità.

Tuttavia, la regressione di Poisson (e correlata: quasi-Poisson, binomio negativo, ecc.) Può anche essere utilizzata per modellare i dati con esiti binari e, con metodi appropriati (ad esempio un robusto stimatore della varianza del sandwich), fornisce stime di rischio e livelli di confidenza validi. Per esempio,

Dalla regressione di Poisson, possono essere riportati rischi relativi, che alcuni hanno sostenuto siano più facili da interpretare rispetto ai rapporti di probabilità, soprattutto per i risultati frequenti, e soprattutto da parte di individui senza un forte background nelle statistiche. Vedi Zhang J. e Yu KF, qual è il rischio relativo? Un metodo per correggere il rapporto di probabilità negli studi di coorte di risultati comuni , JAMA. 18 novembre 1998; 280 (19): 1690-1.

Dalla lettura della letteratura medica, tra gli studi di coorte con esiti binari sembra che sia ancora molto più comune riportare i rapporti di probabilità dalle regressioni logistiche piuttosto che i rischi relativi dalle regressioni di Poisson.

Domande

Per studi di coorte con esiti binari:

  1. C'è una buona ragione per segnalare i rapporti di probabilità dalle regressioni logistiche piuttosto che i rischi relativi dalle regressioni di Poisson?
  2. Altrimenti, la rarità delle regressioni di Poisson con relativi rischi nella letteratura medica può essere attribuita principalmente a un ritardo tra teoria metodologica e pratica tra scienziati, clinici, statistici ed epidemiologi?
  3. I corsi di statistica intermedia ed epidemiologia dovrebbero includere ulteriori discussioni sulla regressione di Poisson per i risultati binari?
  4. Dovrei incoraggiare studenti e colleghi a considerare la regressione di Poisson rispetto alla regressione logistica quando appropriato?

Se si desidera un rischio relativo, perché non utilizzare la regressione binomiale con il collegamento log (anziché logistico)? La relazione media-varianza della famiglia Poisson non ha molto senso se hai condizionato il numero di possibili eventi per osservazione.
Andrew M,

@AndrewM Come applicheresti una regressione binomiale con collegamento log? Valori positivi del regressore implicherebbero valori di probabilità maggiori di 1.
Rufo

@Rufo: Se ti capissi, lo definirei il predittore lineare, piuttosto che il regressore. E sì, lo spazio dei parametri è ora limitato in modo che il predittore lineare sia negativo, a differenza del caso non vincolato per il collegamento logistico. La tua risposta prevista (su nuovi dati) può essere al di fuori di , anche se credo che un MLE esisterà sempre (forse al limite dello spazio dei parametri). Questi modelli a volte sono difficili da adattare. [0,1]
Andrew M,

@AndrewM Sì, ho detto predittore lineare, grazie :). Ma anche quando riesci ad implementare il modello, non sono sicuro che sia adeguato. Come indico in un commento nella prima risposta, se si scambia 0s con 1s e viceversa con la variabile di risposta, poiché il collegamento del registro non è simmetrico intorno a 0,5, le stime dei rischi relativi sono diverse ( exp(beta_M1) =/= 1/exp(beta_M2)). Questo mi disturba un bel po '.
Rufo,

1
@Rufo: certo che non è reciproco. Stai calcolando un rischio relativo: e , in generale, indipendentemente dalla funzione di collegamento utilizzata. P(Y|X)/P(Y|Xc)P(Y|X)/P(Y|Xc)P(Yc|X)/P(Yc|Xc)
Andrew M,

Risposte:


28

Una risposta a tutte e quattro le tue domande, precedute da una nota:

In realtà non è poi così comune per i moderni studi epidemiologici riferire un rapporto di probabilità da una regressione logistica per uno studio di coorte. Rimane la tecnica di regressione scelta per gli studi caso-controllo, ma le tecniche più sofisticate sono ora lo standard di fatto per l'analisi nelle principali riviste di epidemiologia come Epidemiologia , AJE o IJE. Vi sarà una maggiore tendenza a presentarsi nelle riviste cliniche riportando i risultati degli studi osservazionali. Ci saranno anche alcuni problemi perché la regressione di Poisson può essere usata in due contesti: quello a cui ti riferisci, in cui è un sostituto di un modello di regressione binomiale, e in un contesto time-to-event, che è estremamente comune per la coorte studi. Maggiori dettagli nella risposta alla domanda specifica:

  1. Per uno studio di coorte, non proprio no. Ci sono alcuni casi estremamente specifici in cui, per esempio, potrebbe essere stato usato un modello logistico a tratti, ma questi sono valori anomali. Il punto centrale di uno studio di coorte è che puoi misurare direttamente il rischio relativo o molte misure correlate e non devi fare affidamento su un rapporto di probabilità. Farò comunque due note: una regressione di Poisson sta stimando spesso un tasso, non un rischio, e quindi la stima dell'effetto da esso sarà spesso notata come un rapporto di tasso (principalmente, secondo me, quindi è ancora possibile abbreviarlo RR) o un rapporto di densità di incidenza (IRR o IDR). Quindi assicurati che nella tua ricerca stai effettivamente cercando i termini giusti: ci sono molti studi di coorte che usano metodi di analisi di sopravvivenza. Per questi studi, la regressione di Poisson fa alcune ipotesi problematiche, in particolare che il pericolo è costante. Pertanto, è molto più comune analizzare uno studio di coorte utilizzando modelli di rischi proporzionali di Cox, piuttosto che modelli di Poisson, e riportare il conseguente rapporto di rischio (HR). Se premuto per nominare un metodo "predefinito" con cui analizzare una coorte, direi che l'epidemiologia è in realtà dominata dal modello di Cox. Questo ha i suoi problemi e alcuni ottimi epidemiologi vorrebbero cambiarlo,

  2. Ci sono due cose a cui potrei attribuire la rarità: una rarità che non penso necessariamente esista nella misura che suggerisci. Uno è che sì: "l'epidemiologia" come campo non è esattamente chiusa e si ottiene un numero enorme di articoli da clinici, scienziati sociali, ecc., Nonché epidemiologi di diversa provenienza statistica. Il modello logistico viene comunemente insegnato e nella mia esperienza molti ricercatori si rivolgeranno allo strumento familiare anziché allo strumento migliore.

    Il secondo è in realtà una questione di cosa intendi per studio di "coorte". Qualcosa come il modello Cox o un modello di Poisson, ha bisogno di una stima effettiva del tempo-persona. È possibile ottenere uno studio di coorte che segue una popolazione un po 'chiusa per un determinato periodo, specialmente nei primi esempi di "Intro to Epi", in cui i metodi di sopravvivenza come i modelli di Poisson o Cox non sono così utili. Il modello logistico puòessere utilizzato per stimare un odds ratio che, con una prevalenza sufficientemente bassa della malattia, approssima un rischio relativo. Altre tecniche di regressione che la stimano direttamente, come la regressione binomiale, hanno problemi di convergenza che possono far deragliare facilmente un nuovo studente. Tieni presente che i documenti Zou che citi stanno entrambi usando una tecnica di regressione di Poisson per aggirare i problemi di convergenza della regressione binomiale. Ma gli studi di coorte binomiali appropriati sono in realtà una piccola fetta della "torta di studio di coorte".

  3. Sì. Francamente, i metodi di analisi della sopravvivenza dovrebbero emergere prima di quanto facciano spesso. La mia teoria sugli animali domestici è che la ragione non è che i metodi come la regressione logistica sono più facili da codificare . Le tecniche più facili da codificare, ma che presentano avvertenze molto più ampie sulla validità delle loro stime degli effetti, vengono insegnate come standard "di base", il che è un problema.

  4. Dovresti incoraggiare studenti e colleghi a utilizzare lo strumento appropriato. In generale per il settore, penso che probabilmente staresti meglio a suggerire una considerazione del modello Cox rispetto a una regressione di Poisson, poiché la maggior parte dei revisori solleverebbe (e dovrebbe) rapidamente preoccupazioni sull'assunzione di un rischio costante. Ma sì, prima riuscirai a toglierli da "Come posso inserire la mia domanda in un modello di regressione logistica?" meglio saremo tutti. Ma sì, se stai guardando uno studio senza tempo, gli studenti dovrebbero essere introdotti sia alla regressione binomiale, sia a approcci alternativi, come la regressione di Poisson, che possono essere utilizzati in caso di problemi di convergenza.


Quando dici Altre tecniche di regressione che la stimano direttamente [rischio relativo, presumo], come la regressione binomiale, hanno problemi di convergenza [...] , come applicheresti una regressione binomiale in modo che ti dia un rischio relativo? @AndrewM suggerisce un collegamento di registro, ma non riesco a vedere come eviteresti il ​​problema di avere stime della probabilità di successo più alte di 1.
Rufo

@Rufo Un modello binomiale con log-link, se eseguito su una coorte, stimerà il rischio relativo. Il fatto che questi modelli talvolta stimino probabilità maggiori di 1 è in effetti uno dei motivi per cui i modelli binomiali sono più difficili da implementare di quanto sia ideale. Ma sono riuscito a usarli - è utile che i tuoi dati abbiano spesso probabilità ben al di sotto di 1, quindi il modello potrebbe non finire mai con il problema di cui ti preoccupi.
Fomite,

La funzione collegamento log non darebbe risultati diversi a seconda della codificazione della variabile di risposta? Voglio dire, se si scambia 0s con 1s e viceversa, poiché il collegamento del registro non è simmetrico intorno a 0,5, le stime per il parametro dati determinati valori delle covariate e le stime predittive sono diverse. Questo mi disturba un bel po '. p
Rufo,

9

Anch'io speculo sulla prevalenza dei modelli logistici in letteratura quando un modello di rischio relativo sarebbe più appropriato. Noi come statistici abbiamo fin troppo familiarità con l'adesione alle convenzioni o restiamo fedeli alle analisi del "menu a discesa". Questi creano molti più problemi di quanti ne risolvano. La regressione logistica viene insegnata come "strumento standardizzato" per l'analisi dei risultati binari, in cui un individuo ha un tipo di esito sì / no come la morte o la disabilità.

La regressione di Poisson viene spesso insegnata come metodo per analizzare i conteggi . È in qualche modo sottolineato che un tale modello di probabilità funziona eccezionalmente bene per modellare risultati 0/1, specialmente quando sono rari. Tuttavia, anche un modello logistico è ben applicato con esiti rari: il rapporto di probabilità è approssimativamente un rapporto di rischio, anche con campionamento dipendente dal risultato come negli studi caso-controllo. Lo stesso non si può dire del rischio relativo o dei modelli di Poisson.

Un modello di poisson è utile anche quando le persone possono avere un "esito" più di una volta e potresti essere interessato all'incidenza cumulativa, come focolai di herpes, ricoveri o tumori al seno. Per questo motivo, i coefficienti esponenziali possono essere interpretati come tassi relativi . Per attenuare la differenza tra tassi e rischi: se ci sono 100 casi per 1.000 persone-anno, ma tutti i 100 casi si sono verificati in un individuo, l'incidenza (tasso) è ancora 1 caso per 10 persone / anni. In un contesto di erogazione di assistenza sanitaria, è ancora necessario trattare 100 casi e la vaccinazione dell'80% delle persone ha una riduzione del tasso di incidenza dell'80% (a priori). Tuttavia, il rischio di almeno un risultato è 1/1000. La natura del risultato e la domanda, insieme, determinano quale modello è appropriato.

Mi preoccuperei di dire "adattiamo un modello di regressione di Poisson per l'incidenza per stimare i tassi relativi " perché ciò può creare confusione sulla natura del risultato e se una persona può sperimentarlo più di una volta. Se sei interessato ai rischi relativi, devi dirlo ed essere pronto a discutere le sensibilità dell'assunzione di varianza inappropriata in cui la media è proporzionale al risultato quando gli eventi binari hanno la seguente relazione di varianza media:var(y)=E(y)(1E(y))

La mia comprensione è che se l'interesse scientifico risiede nella stima dei tassi relativi, esiste un modello ibrido: regressione del rischio relativo che è un GLM che utilizza la struttura della varianza logistica e la struttura media del poisson. Vale a dire: e ,log(E[Y|X])=β0+β1Xvar(Y)=E[Y](1E[Y])

A proposito, l'articolo di Zhang fornisce una stima distorta dell'inferenza basata sulla stima del rischio relativo che non tiene conto della variabilità nel termine dell'intercettazione. È possibile correggere lo stimatore eseguendo il bootstrap.

Per rispondere alle domande specifiche:

  1. Se il risultato è raro, sono approssimativamente uguali. Se il risultato è comune, la varianza dello stimatore di tasso relativo dal Poisson potrebbe essere eccessivamente gonfiata e potremmo preferire il rapporto di probabilità come una stima distorta ma efficiente dell'associazione tra un risultato binario e diverse esposizioni. Penso anche che studi caso-controllo giustifichino l'uso del rapporto di probabilità come misura che non varia con il campionamento dipendente dal risultato. Scott e Wild 97 discutono i metodi intorno a questo. Naturalmente, altre riviste potrebbero non avere revisori statistici dedicati.

2.3. Penso che tu stia incolpando e assumendo troppe cose su ciò che accade nella revisione medica e negli accademici.

  1. Dovresti sempre incoraggiare i tuoi studenti a usare modelli appropriati ogni volta che è possibile.

http://biostats.bepress.com/cgi/viewcontent.cgi?article=1128&context=uwbiostat


2
"La mia comprensione è che se l'interesse scientifico risiede nella stima dei tassi relativi, esiste un modello ibrido: regressione del rischio relativo che è un GLM che utilizza la struttura della varianza logistica e la struttura della media di Poisson": noto anche come regressione binomiale con un collegamento log.
Andrew M,

2
@AndrewM In effetti. In effetti, penso che sia la lingua preferita. Grazie per la segnalazione. Ho modificato la domanda per includere un riferimento a un documento di lavoro di Thomas Lumley che enfatizza che il modello di Poisson è un "modello di lavoro" in quanto è una relazione di varianza medio assunta errata.
AdamO,

Cosa intendi con "Se il risultato è raro sono approssimativamente uguali"? Qual è la percentuale massima di risultati "rari" per utilizzare OR invece di RR per stimare la prevalenza?
vasili111,

2
@ vasili111 questo è un argomento molto dibattuto senza una risposta chiara. Al giorno d'oggi vedi molte critiche alle persone che fanno l'ipotesi "rara" quando l'incidenza non era affatto rara, come più di 1/30. E con i modelli multivariati, tutto va bene!
AdamO,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.