Gli offset possono essere utilizzati in qualsiasi modello di regressione, ma sono molto più comuni quando si lavora con i dati di conteggio per la variabile di risposta. Un offset è solo una variabile che è costretta ad avere un coefficiente di 1 nel modello. (Vedi anche questo eccellente thread CV: quando utilizzare un offset in una regressione di Poisson? )
Se utilizzato correttamente con i dati di conteggio, ciò consente di modellare le tariffe anziché i conteggi . Se questo è interessante, allora è qualcosa da fare. Pertanto, questo è il contesto in cui gli offset vengono utilizzati più frequentemente. Consideriamo un Poisson GLiM con un collegamento di registro (che è il collegamento canonico).
ln(λ)ln(λtime)ln(λ)−ln(time)ln(λ)ln(λ)=β0+β1X=β0+β1X⇒=β0+β1X=β0+β1X+ 1 ×ln( T i m e )≠= β0+β1X+ β2×ln( t im e )w h e n β2≠ 1( C o u n t s )( r a t e s )( s t i l l r a t e s )( C o u n t s un g un i n )
(Come puoi vedere, la chiave per usare correttamente un offset è rendere l'offset, non t i m e .) ln( t i m e )t i m e
Quando il coefficiente su non è 1 , non si modellano più i tassi. Ma poiché β 2 ∈ ( - ∞ , 1 ) ∪ ( 1 , ∞ ) offre una flessibilità molto maggiore per adattare i dati, i modelli che non usano ln ( t i m e ) come offset generalmente si adattano meglio (anche se possono anche troppo vestito). ln( t i m e )1β2∈ ( - ∞ , 1 ) ∪ ( 1 , ∞ )ln( t i m e )
Il fatto che tu debba modellare i conteggi o i tassi dipende davvero da quale sia la tua domanda sostanziale. Dovresti modellare quello che corrisponde a ciò che vuoi sapere.
Per quanto possa significare che non sia 1 , considera un esempio in cui il tempo non è la variabile in questione. Immagina di studiare il numero di complicanze chirurgiche in diversi ospedali. Un ospedale ha molte più complicazioni chirurgiche riportate, ma potrebbero affermare che il confronto non è corretto perché fanno molti più interventi chirurgici. Quindi decidi di provare a controllare per questo. Puoi semplicemente utilizzare il registro del numero di interventi chirurgici come offset, che ti consentirebbe di studiare il tasso di complicanze per intervento chirurgico. È inoltre possibile utilizzare il registro del numero di interventi chirurgici come un'altra covariata. Diciamo che il coefficiente è significativamente diverso da 1 . Se β 2 > 1β211β2> 1, quindi gli ospedali che eseguono più interventi chirurgici hanno un più alto tasso di complicazioni (forse perché stanno accelerando il lavoro per fare di più). Se , gli ospedali che hanno il maggior numero di complicanze hanno meno complicazioni per intervento chirurgico (forse hanno i migliori dottori, quindi fanno di più e li fanno meglio). β2< 1
Vedere come ciò potrebbe accadere se la variabile in questione fosse il tempo è un po 'più complicata. La distribuzione di Poisson deriva dal processo di Poisson , in cui il tempo tra gli eventi è distribuito esponenzialmente, e quindi esiste una connessione naturale con l'analisi di sopravvivenza. Nell'analisi di sopravvivenza, il tempo agli eventi spesso non viene distribuito come esponenziale, ma il rischio di base può diventare maggiore o minore nel tempo. Quindi, considera un caso in cui stai modellando il numero di eventi che si verificano seguendo un punto di partenza naturale. Se , ciò significa che il tasso di eventi sta accelerando, mentre se β 2 < 1β2> 1β2< 1, ciò significa che il tasso di eventi sta rallentando.
Per un esempio concreto del primo, immagina una scansione che conteggi il numero di cellule tumorali un periodo di tempo dopo la rimozione chirurgica del tumore iniziale. Per alcuni pazienti, è trascorso più tempo dall'intervento e si voleva tenerne conto. Poiché una volta che un tumore ha riacquistato la propria posizione, inizierà a crescere in modo esponenziale, il tasso aumenterà nel tempo dall'intervento senza ulteriore trattamento.
Per un esempio concreto di quest'ultimo, considerare il numero di persone che muoiono per un focolaio di malattia per il quale non abbiamo cure. All'inizio, molte persone muoiono perché erano più sensibili a quella malattia, o avevano già un sistema immunitario compromesso, ecc. Nel corso del tempo, poiché la popolazione di persone rimaste è meno suscettibile alla malattia, il tasso diminuirà. (Mi dispiace che questo esempio sia così morboso.)