Modelli binari (Probit e Logit) con un offset logaritmico


12

Qualcuno ha una derivazione di come funziona un offset in modelli binari come probit e logit?

Nel mio problema, la finestra di follow-up può variare in lunghezza. Supponiamo che i pazienti ricevano un colpo profilattico come trattamento. Lo scatto avviene in momenti diversi, quindi se il risultato è un indicatore binario del verificarsi di riacutizzazioni, è necessario adeguarsi al fatto che alcune persone hanno più tempo per mostrare i sintomi. Sembra che la probabilità di una riacutizzazione sia proporzionale alla durata del periodo di follow-up. Matematicamente non è chiaro per me come un modello binario con un offset catturi questa intuizione (diversamente dal Poisson).

L'offset è un'opzione standard sia in Stata (p.1666) che in R , e posso facilmente vederlo per un Poisson , ma il caso binario è un po 'opaco.

Ad esempio, se abbiamo questo è algebricamente equivalente a un modello in cui \ begin {equation} E [y \ vert x] = \ exp \ {x '\ beta + \ log {Z} \}, \ end {equation} che è il modello standard con il coefficiente su \ log Z vincolato a 1 . Questo si chiama offset logaritmico . Ho problemi a capire come funziona se sostituiamo \ exp \ {\} con \ Phi () o \ Lambda () .

E[y|x]Z=exp{xβ},
E[y|x]=exp{xβ+logZ},
logZ1exp{}Φ()Λ()

Aggiornamento n. 1:

Il caso logit è stato spiegato di seguito.

Aggiornamento n. 2:

Ecco una spiegazione di quello che sembra essere l'uso principale degli offset per i modelli non poisson come probit. L'offset può essere utilizzato per condurre test del rapporto di verosimiglianza sui coefficienti delle funzioni dell'indice. Innanzitutto, stimare il modello non vincolato e archiviare le stime. voler verificare l'ipotesi che . Quindi si crea la variabile , si adatta il modello rilasciando e usando come offset non logaritmico. Questo è il modello vincolato. I test LR confrontano i due ed è un'alternativa al solito test Wald.βx=2z=2xxz

Risposte:


8

Puoi sempre includere un offset in qualsiasi GLM: è solo una variabile predittiva il cui coefficiente è fissato a 1. La regressione di Poisson è solo un caso d'uso molto comune.

Si noti che in un modello binomiale, l'analogo dell'esposizione del registro come offset è solo il denominatore binomiale, quindi di solito non è necessario specificarlo esplicitamente. Proprio come è possibile modellare un camper Poisson come conteggio con esposizione log come offset o come rapporto con esposizione come peso, è possibile modellare allo stesso modo un camper binomiale come conteggi di successi e fallimenti o come frequenza con prove come un peso.

In una regressione logistica, interpretereste un offset in termini di rapporti di probabilità: una variazione proporzionale in determina una data variazione proporzionale in .Z p / ( 1 - p )logZZp/(1p)

log(p/(1p))=βX+logZp/(1p)=Zexp(βX)

Ma questo non ha alcun significato particolare come fa l'esposizione al tronco in una regressione di Poisson. Detto questo, se la tua probabilità binomiale è abbastanza piccola, un modello logistico si avvicinerà a un modello di Poisson con log link (poiché il denominatore su LHS si avvicina a 1) e l'offset può essere trattato come un termine di esposizione log.

(Il problema descritto nella tua domanda R collegata era piuttosto idiosincratico.)


La parte di ponderazione mancava dalla mia comprensione dell'equivalenza dei due. È stato molto utile. Sono ancora un po 'confuso su come si possa trasformare qualcosa come in un'affermazione sulla probabilità che una riacutizzazione sia proporzionale a la durata del periodo di follow-up , anche se posso vedere come sta aumentando in . Pr(Y=1|X)=Φ(xβ+ln(t))tt
Dimitriy V. Masterov,

Non è la probabilità, ma il rapporto di probabilità. Speriamo che la modifica lo renda più chiaro.
Hong Ooi,

Esprimere il problema in termini di odds ratio lo rende molto chiaro. E il probit?
Dimitriy V. Masterov,

Non mi aspetto che questo funzioni per probit, o almeno abbia un'interpretazione chiara, poiché non è un collegamento canonico e una variabile binaria dipendente con probit non rientra nella famiglia esponenziale. Φ()
StasK,

@StasK Sembra giusto, ma allora perché esistono queste opzioni in Stata e R? Cosa realizzano?
Dimitriy V. Masterov

1

Riformulando questo come un problema di time-to-event, un modello logistico con un offset ln (tempo) non ti impegnerebbe effettivamente in una funzione di sopravvivenza parametrica che potrebbe o non potrebbe adattarsi bene ai dati?

p / (1-p) = Z * exp (xbeta)

p = [Z * exp (xbeta)] / [1 + Z * exp (xbeta)]

Sopravvivenza prevista al momento Z = 1- [Z * exp (xbeta)] / [1 + Z * exp (xbeta)]

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.