Offset nelle regressioni di Poisson
Iniziamo osservando perché utilizziamo un offset in una regressione di Poisson. Spesso vogliamo che ciò sia dovuto al controllo dell'esposizione. Let sia il tasso di riferimento per unità di orientamento e essere il tempo di esposizione nella stessa unità. Il numero previsto di eventi sarà .t λ × tλtλ×t
In un modello GLM stiamo modellando il valore atteso usando una funzione di collegamento , cioèg
g(λti)=log(λti)=β0+β1x1,i+…
dove è la durata dell'esposizione per l'individuo e è il valore di covariata per l'individuo . I puntini di sospensione indicano semplicemente ulteriori termini di regressione che potremmo voler aggiungere. i x i itiixii
Possiamo semplificare semplificando l'espressione sopra
log(λ)=log(ti)+β0+β1x1,i+…
Il è semplicemente un "offset" aggiunto alla regressione di Poisson in quanto non è un prodotto di uno dei parametri del modello che ci sarà la stima.log(ti)
Regressione binomiale
In una regressione binomiale, che in genere utilizza un collegamento logit, ovvero:
g(pi)=logit(pi)=log(pi1−pi)=β0+β1x1,i+…
Si può vedere che sarà difficile derivare un modello per che produrrà un offset costante.pi
Ad esempio, se è la probabilità che uno qualsiasi paziente il giorno abbia un incidente. Sarà una funzione dei singoli pazienti disponibili in quel giorno. Come affermato da jboman, è più facile ottenere il complimento per nessuna incidenza, piuttosto che determinare direttamente la probabilità di almeno un incidente. pii
Sia la probabilità che un paziente abbia un incidente il giorno . La probabilità che nessun paziente abbia un incidente il giorno sarà , dove è il numero di pazienti nel giorno . A parte il complimento, la probabilità che almeno un paziente abbia un incidente sarà, j i i ∏ N i j =p∗i,jjiiNiipi=1- N i ∏ j=1(1-p ∗ i , j ).∏Nij=1(1−p∗i,j)Nii
pi=1−∏j=1Ni(1−p∗i,j).
Se siamo disposti ad assumere la probabilità che un paziente abbia un incidente in qualsiasi giorno sia lo stesso, possiamo semplificarlo a dove e è la probabilità di incidenza condivisa.
pi=1−(q∗)Ni,
q∗=1−p∗p∗
Se sostituiamo questa nuova definizione di nella nostra funzione di collegamento logit , il meglio che possiamo fare in termini di semplificazione e riorganizzazione è . Questo non ci lascia ancora con un termine costante che può essere preso in considerazione. pig(pi)log((q∗)−N−1)
Di conseguenza non possiamo usare un offset in questo caso.
Il meglio che puoi fare è discretizzare il problema (come suggerito da jboman) puoi creare bin per il numero di pazienti e stimare un valore separato per per ciascuno di questi bin. Altrimenti dovrai derivare un modello più complicato.p