Come affrontare l'iperdispersione nella regressione di Poisson: quasi-verosimiglianza, GLM binomiale negativo o effetto casuale a livello di soggetto?

Mi sono imbattuto in tre proposte per affrontare l'overdispersione in una variabile di risposta di Poisson e un modello di partenza a effetti fissi:

Usa un quasi modello;
Usa GLM binomiale negativo;
Utilizzare un modello misto con un effetto casuale a livello di soggetto.

Ma quale scegliere effettivamente, e perché? Esiste un criterio effettivo tra questi?

— Bryan
fonte

Il quasi modello considera il parametro scale / dispersion come un parametro di disturbo e fornisce SE per gli IRR che sono ampliati da quella eterogeneità mentre gli IRR binomiali negativi dipendono dal parametro scale. Un modello misto modella un effetto diverso: il livello individuale o gli effetti condizionati, mentre i modelli binomiali e quasipoisson negativi sono modelli marginali. Quindi non stanno stimando la stessa cosa.

— AdamO

Ok, quindi quale scegliere effettivamente e quali sono i criteri per prendere quella decisione?

— Bryan

Penso che sceglieresti Quasipoisson se (indipendentemente dai dati) conosci il modello di Poisson stimando la tendenza che ti interessa, ma la progettazione o l'analisi dei dati non soddisfano esattamente il presupposto della varianza. Utilizzeresti un modello binomiale negativo se avessi buone ragioni per credere che il modello probabilistico sia in realtà un binomio negativo, e devi effettivamente prevedere l'eteroscedasticità piuttosto che fare deduzione sulla tendenza. Infine, usi un modello misto se vuoi conoscere l'effetto di un'esposizione su un individuo piuttosto che sulla popolazione (cioè non usare mai con la tossicologia).

— AdamO

Non sono d'accordo con @AdamO Wrt "modello misto ... effetto di un'esposizione su ... individuo piuttosto che sulla popolazione" . La mia comprensione è che i modelli misti quantificano gli effetti a livello di soggetto e quindi li integrano. Fondamentalmente, questo spiega la pseudoreplicazione (più misure sullo stesso argomento) dalle stime dei parametri, che si basa su stime dei parametri imparziali per la popolazione (non l'individuo). Per questo motivo uso sempre modelli misti ... quindi spero di non sbagliarmi!

— RTbecard

La regressione di Poisson è solo una GLM:

Le persone spesso parlano della logica parametrica per l'applicazione della regressione di Poisson. In effetti, la regressione di Poisson è solo una GLM. Ciò significa che la regressione di Poisson è giustificata per qualsiasi tipo di dati (conteggi, valutazioni, punteggi degli esami, eventi binari, ecc.) Quando vengono soddisfatte due ipotesi: 1) il registro del risultato medio è una combinazione lineare dei predittori e 2) la varianza del risultato è uguale alla media . Queste due condizioni sono rispettivamente indicate come relazione media-modello e media-varianza.

L'ipotesi del modello medio può essere in qualche modo allentata usando una serie complessa di regolazioni per i predittori. Questo è utile perché la funzione di collegamento influisce sull'interpretazione dei parametri; la sottigliezza dell'interpretazione fa la differenza tra rispondere a una domanda scientifica e sfuggire completamente ai consumatori della tua analisi statistica. In un altro post di SE discuto dell'utilità delle trasformazioni dei log per l'interpretazione.

Si scopre, tuttavia, che la seconda ipotesi (relazione media-varianza) ha forti implicazioni sull'inferenza. Quando la relazione media-varianza non è vera, le stime dei parametri non sono distorte . Tuttavia, gli errori standard, gli intervalli di confidenza, i valori p e le previsioni sono tutti calibrati in modo errato. Ciò significa che non puoi controllare l'errore di tipo I e potresti avere un potere non ottimale.

E se la varianza media potesse essere rilassata in modo tale che la varianza sia semplicemente proporzionale alla media? La regressione binomiale negativa e la regressione di Quasipoisson fanno questo.

Modelli Quasipoisson

I modelli Quasipoisson non sono basati sulla verosimiglianza. Massimizzano un "quasilikelihood" che è una probabilità di Poisson fino a una costante proporzionale. Quella costante proporzionale sembra essere la dispersione. La dispersione è considerata un fastidioparametro. Mentre la routine di massimizzazione fornisce una stima del parametro di disturbo, tale stima è semplicemente un artefatto dei dati piuttosto che qualsiasi valore che generalizzi alla popolazione. La dispersione serve solo a "restringere" o "allargare" gli SE dei parametri di regressione a seconda che la varianza sia proporzionalmente più piccola o più grande della media. Dato che la dispersione è trattata come un parametro di disturbo, i modelli quasipoisson godono di una serie di proprietà robuste: i dati possono in effetti essere eteroscedastici (non soddisfano il presupposto della varianza media proporzionale) e persino mostrare piccole fonti di dipendenza, e il modello medio non ha bisogno di essere esattamente corretto, ma gli IC del 95% per i parametri di regressione sono asintoticamente corretti.Se il tuo obiettivo dell'analisi dei dati è misurare l'associazione tra un insieme di parametri di regressione e il risultato, i modelli quasipoisson sono di solito la strada da percorrere. Una limitazione di questi modelli è che non possono fornire intervalli di predizione, i residui di Pearson non possono dirti molto sull'accuratezza del modello medio e criteri di informazione come l'AIC o BIC non possono confrontare efficacemente questi modelli con altri tipi di modelli.

Modelli binomiali negativi

È molto utile capire la regressione binomiale negativa come una regressione di Poisson a 2 parametri. Il modello medio è lo stesso dei modelli Poisson e Quasipoisson in cui il registro del risultato è una combinazione lineare di predittori. Inoltre, il parametro "scale" modella una relazione media-varianza in cui la varianza è semplicemente proporzionale alla media di prima. Tuttavia, a differenza dei modelli quasipoisson, questo tipo di modello è una procedura basata sulla probabilità esatta. In questo caso la dispersione è un parametro reale che ha un certo grado di generalizzabilità alla popolazione. Ciò introduce alcuni vantaggi rispetto a quasipoisson ma, a mio avviso, impone ipotesi più (non verificabili). A differenza dei modelli quasipoisson: i dati devono essere indipendenti, il modello medio deve essere corretto e il parametro di scala deve essere omoscedastico in tutta la gamma di valori adattati per ottenere la corretta inferenza. Tuttavia, questi possono essere valutati in qualche modo ispezionando i residui di Pearson e il modello produce previsioni e intervalli di previsione praticabili, ed è suscettibile di confronto con criteri di informazione.

I modelli di probabilità binomiale negativa derivano da una miscela di Poisson-Gamma. Cioè, c'è una variabile casuale Gamma fluttuante sconosciuta che "alimenta" il parametro della velocità di Poisson. Poiché l'adattamento NB GLM è basato sulla verosimiglianza, di solito è utile affermare le credenze precedenti sul meccanismo di generazione dei dati e collegarle alla logica probabilistica per il modello in questione. Ad esempio, se sto testando il numero di piloti che si ritirano dalle gare di endurance di 24 ore, potrei considerare che le condizioni ambientali sono tutti fattori di stress che non ho misurato e quindi contribuiscono al rischio di DNF, come umidità o temperatura fredda che influiscono sugli pneumatici trazione e quindi il rischio di spin-out e relitto.

Modelli per dati dipendenti: GLMMs vs GEE

I modelli misti lineari generalizzati (GLMM) per i dati di Poisson non si confrontano con gli approcci di cui sopra. I GLMM rispondono a una domanda diversa e vengono utilizzati in diverse strutture di dati. Qui le fonti di dipendenza tra i dati sono misurate esplicitamente. I GLMM fanno uso di intercettazioni casuali e pendenze casuali per tenere conto dell'eterogeneità a livello individuale. Questo modifica ciò che stimiamo. Gli effetti casuali modificano la media e la varianza modellata anziché solo la varianza, come discusso in precedenza.

Esistono due possibili livelli di associazione che possono essere misurati in dati dipendenti: livello di popolazione (marginale) e livello individuale (condizionale). I GLMM affermano di misurare le associazioni a livello individuale (condizionale): vale a dire, data l'intera serie di contributori a livello individuale al risultato, qual è l'effetto relativo di una combinazione di predittori. Ad esempio, i corsi di preparazione agli esami possono avere scarso effetto per i bambini che frequentano scuole esemplari, mentre i bambini nei centri urbani possono trarne enormi benefici. L'effetto a livello individuale è quindi sostanzialmente più elevato in questa circostanza poiché i bambini avvantaggiati sono troppo al di sopra della curva in termini di esposizioni positive.

Se applicassimo ingenuamente modelli binomiali quasipoisson o negativi a dati dipendenti, i modelli NB sarebbero errati e i modelli Quasipoisson sarebbero inefficienti. Il GEE, tuttavia, estende il modello quasipoisson per modellare esplicitamente strutture di dipendenza come il GLMM, ma il GEE misura un andamento marginale (a livello di popolazione) e ottiene i pesi corretti, gli errori standard e l'inferenza.

Esempio di analisi dei dati:

Questo post è già troppo lungo :) C'è una bella illustrazione dei primi due modelli in questo tutorial , insieme a riferimenti a più letture se sei interessato. I dati in questione riguardano le abitudini di nidificazione dei granchi a ferro di cavallo: le femmine siedono nei nidi e i maschi (satelliti) si attaccano a lei. Gli investigatori volevano misurare il numero di maschi collegati a una femmina in funzione delle caratteristiche della femmina. Spero di aver sottolineato perché i modelli misti non sono confrontabili: se si dispone di dati dipendenti, è necessario utilizzare il modello corretto per la domanda a cui quei dati dipendenti stanno cercando di rispondere, un GLM o un GEE.

Riferimenti:

[1] Agresti, Categorical Data Analysis 2nd Edition

[2] Diggle, Heagerty, Liang, Zeger, Analysis of Longitudinal Data 2nd ed.

— ADAMO
fonte