La regressione di Poisson è solo una GLM:
Le persone spesso parlano della logica parametrica per l'applicazione della regressione di Poisson. In effetti, la regressione di Poisson è solo una GLM. Ciò significa che la regressione di Poisson è giustificata per qualsiasi tipo di dati (conteggi, valutazioni, punteggi degli esami, eventi binari, ecc.) Quando vengono soddisfatte due ipotesi: 1) il registro del risultato medio è una combinazione lineare dei predittori e 2) la varianza del risultato è uguale alla media . Queste due condizioni sono rispettivamente indicate come relazione media-modello e media-varianza.
L'ipotesi del modello medio può essere in qualche modo allentata usando una serie complessa di regolazioni per i predittori. Questo è utile perché la funzione di collegamento influisce sull'interpretazione dei parametri; la sottigliezza dell'interpretazione fa la differenza tra rispondere a una domanda scientifica e sfuggire completamente ai consumatori della tua analisi statistica. In un altro post di SE discuto dell'utilità delle trasformazioni dei log per l'interpretazione.
Si scopre, tuttavia, che la seconda ipotesi (relazione media-varianza) ha forti implicazioni sull'inferenza. Quando la relazione media-varianza non è vera, le stime dei parametri non sono distorte . Tuttavia, gli errori standard, gli intervalli di confidenza, i valori p e le previsioni sono tutti calibrati in modo errato. Ciò significa che non puoi controllare l'errore di tipo I e potresti avere un potere non ottimale.
E se la varianza media potesse essere rilassata in modo tale che la varianza sia semplicemente proporzionale alla media? La regressione binomiale negativa e la regressione di Quasipoisson fanno questo.
Modelli Quasipoisson
I modelli Quasipoisson non sono basati sulla verosimiglianza. Massimizzano un "quasilikelihood" che è una probabilità di Poisson fino a una costante proporzionale. Quella costante proporzionale sembra essere la dispersione. La dispersione è considerata un fastidioparametro. Mentre la routine di massimizzazione fornisce una stima del parametro di disturbo, tale stima è semplicemente un artefatto dei dati piuttosto che qualsiasi valore che generalizzi alla popolazione. La dispersione serve solo a "restringere" o "allargare" gli SE dei parametri di regressione a seconda che la varianza sia proporzionalmente più piccola o più grande della media. Dato che la dispersione è trattata come un parametro di disturbo, i modelli quasipoisson godono di una serie di proprietà robuste: i dati possono in effetti essere eteroscedastici (non soddisfano il presupposto della varianza media proporzionale) e persino mostrare piccole fonti di dipendenza, e il modello medio non ha bisogno di essere esattamente corretto, ma gli IC del 95% per i parametri di regressione sono asintoticamente corretti.Se il tuo obiettivo dell'analisi dei dati è misurare l'associazione tra un insieme di parametri di regressione e il risultato, i modelli quasipoisson sono di solito la strada da percorrere. Una limitazione di questi modelli è che non possono fornire intervalli di predizione, i residui di Pearson non possono dirti molto sull'accuratezza del modello medio e criteri di informazione come l'AIC o BIC non possono confrontare efficacemente questi modelli con altri tipi di modelli.
Modelli binomiali negativi
È molto utile capire la regressione binomiale negativa come una regressione di Poisson a 2 parametri. Il modello medio è lo stesso dei modelli Poisson e Quasipoisson in cui il registro del risultato è una combinazione lineare di predittori. Inoltre, il parametro "scale" modella una relazione media-varianza in cui la varianza è semplicemente proporzionale alla media di prima. Tuttavia, a differenza dei modelli quasipoisson, questo tipo di modello è una procedura basata sulla probabilità esatta. In questo caso la dispersione è un parametro reale che ha un certo grado di generalizzabilità alla popolazione. Ciò introduce alcuni vantaggi rispetto a quasipoisson ma, a mio avviso, impone ipotesi più (non verificabili). A differenza dei modelli quasipoisson: i dati devono essere indipendenti, il modello medio deve essere corretto e il parametro di scala deve essere omoscedastico in tutta la gamma di valori adattati per ottenere la corretta inferenza. Tuttavia, questi possono essere valutati in qualche modo ispezionando i residui di Pearson e il modello produce previsioni e intervalli di previsione praticabili, ed è suscettibile di confronto con criteri di informazione.
I modelli di probabilità binomiale negativa derivano da una miscela di Poisson-Gamma. Cioè, c'è una variabile casuale Gamma fluttuante sconosciuta che "alimenta" il parametro della velocità di Poisson. Poiché l'adattamento NB GLM è basato sulla verosimiglianza, di solito è utile affermare le credenze precedenti sul meccanismo di generazione dei dati e collegarle alla logica probabilistica per il modello in questione. Ad esempio, se sto testando il numero di piloti che si ritirano dalle gare di endurance di 24 ore, potrei considerare che le condizioni ambientali sono tutti fattori di stress che non ho misurato e quindi contribuiscono al rischio di DNF, come umidità o temperatura fredda che influiscono sugli pneumatici trazione e quindi il rischio di spin-out e relitto.
Modelli per dati dipendenti: GLMMs vs GEE
I modelli misti lineari generalizzati (GLMM) per i dati di Poisson non si confrontano con gli approcci di cui sopra. I GLMM rispondono a una domanda diversa e vengono utilizzati in diverse strutture di dati. Qui le fonti di dipendenza tra i dati sono misurate esplicitamente. I GLMM fanno uso di intercettazioni casuali e pendenze casuali per tenere conto dell'eterogeneità a livello individuale. Questo modifica ciò che stimiamo. Gli effetti casuali modificano la media e la varianza modellata anziché solo la varianza, come discusso in precedenza.
Esistono due possibili livelli di associazione che possono essere misurati in dati dipendenti: livello di popolazione (marginale) e livello individuale (condizionale). I GLMM affermano di misurare le associazioni a livello individuale (condizionale): vale a dire, data l'intera serie di contributori a livello individuale al risultato, qual è l'effetto relativo di una combinazione di predittori. Ad esempio, i corsi di preparazione agli esami possono avere scarso effetto per i bambini che frequentano scuole esemplari, mentre i bambini nei centri urbani possono trarne enormi benefici. L'effetto a livello individuale è quindi sostanzialmente più elevato in questa circostanza poiché i bambini avvantaggiati sono troppo al di sopra della curva in termini di esposizioni positive.
Se applicassimo ingenuamente modelli binomiali quasipoisson o negativi a dati dipendenti, i modelli NB sarebbero errati e i modelli Quasipoisson sarebbero inefficienti. Il GEE, tuttavia, estende il modello quasipoisson per modellare esplicitamente strutture di dipendenza come il GLMM, ma il GEE misura un andamento marginale (a livello di popolazione) e ottiene i pesi corretti, gli errori standard e l'inferenza.
Esempio di analisi dei dati:
Questo post è già troppo lungo :) C'è una bella illustrazione dei primi due modelli in questo tutorial , insieme a riferimenti a più letture se sei interessato. I dati in questione riguardano le abitudini di nidificazione dei granchi a ferro di cavallo: le femmine siedono nei nidi e i maschi (satelliti) si attaccano a lei. Gli investigatori volevano misurare il numero di maschi collegati a una femmina in funzione delle caratteristiche della femmina. Spero di aver sottolineato perché i modelli misti non sono confrontabili: se si dispone di dati dipendenti, è necessario utilizzare il modello corretto per la domanda a cui quei dati dipendenti stanno cercando di rispondere, un GLM o un GEE.
Riferimenti:
[1] Agresti, Categorical Data Analysis 2nd Edition
[2] Diggle, Heagerty, Liang, Zeger, Analysis of Longitudinal Data 2nd ed.