Perché il quasi-Poisson nella GLM non è trattato come un caso speciale di binomio negativo?

Sto cercando di adattare modelli lineari generalizzati ad alcune serie di dati di conteggio che potrebbero essere o meno sovradispersi. Le due distribuzioni canoniche che si applicano qui sono Poisson e Negative Binomial (Negbin), con EV e varianza $\mu$

$Var_P = \mu$

$Var_{NB} = \mu + \frac{\mu^2}{\theta}$

che può essere montato in R usando glm(..,family=poisson)e glm.nb(...), rispettivamente. C'è anche la quasipoissonfamiglia, che secondo me è un Poisson adattato con lo stesso EV e la stessa varianza

$Var_{QP} = \phi\mu$ ,

cioè cadere da qualche parte tra Poisson e Negbin. Il problema principale con la famiglia dei quasipoisson è che non esiste una probabilità corrispondente per esso, e quindi molti test statistici estremamente utili e misure di adattamento (AIC, LR eccetera) non sono disponibili.

Se si confrontano le varianze QP e Negbin, è possibile notare che è possibile equipararle inserendo . Continuando su questa logica, potresti provare ad esprimere la distribuzione quasipoisson come un caso speciale del Negbin: $\phi = 1 + \frac{\mu}{\theta}$

$QP\,(\mu,\phi) = NB\,(\mu,\theta = \frac{\mu}{\phi-1})$ ,

cioè un Negbin con linearmente dipendente da . Ho provato a verificare questa idea generando una sequenza casuale di numeri secondo la formula sopra e adattandola con : $\theta$ $\mu$ glm

#fix parameters

phi = 3
a = 1/50
b = 3
x = 1:100

#generating points according to an exp-linear curve
#this way the default log-link recovers the same parameters for comparison

mu = exp(a*x+b) 
y = rnbinom(n = length(mu), mu = mu, size = mu/(phi-1)) #random negbin generator

#fit a generalized linear model y = f(x)  
glmQP = glm(y~x, family=quasipoisson) #quasipoisson
glmNB = glm.nb(y~x) #negative binomial

> glmQP

Call:  glm(formula = y ~ x, family = quasipoisson)

Coefficients:
(Intercept)            x  
    3.11257      0.01854  
(Dispersion parameter for quasipoisson family taken to be 3.613573)

Degrees of Freedom: 99 Total (i.e. Null);  98 Residual
Null Deviance:      2097 
Residual Deviance: 356.8    AIC: NA

> glmNB

Call:  glm.nb(formula = y ~ x, init.theta = 23.36389741, link = log)

Coefficients:
(Intercept)            x  
    3.10182      0.01873  

Degrees of Freedom: 99 Total (i.e. Null);  98 Residual
Null Deviance:      578.1 
Residual Deviance: 107.8    AIC: 824.7

Entrambi gli adattamenti riproducono i parametri e il quasipoisson fornisce una stima "ragionevole" per $\phi$ . Ora possiamo anche definire un valore AIC per il quasipoisson:

df = 3 # three model parameters: a,b, and phi
phi.fit = 3.613573 #fitted phi value copied from summary(glmQP)
mu.fit = glmQP$fitted.values 

#dnbinom = negbin density, log=T returns log probabilities
AIC = 2*df - 2*sum(dnbinom(y, mu=mu.fit, size = mu.fit/(phi.fit - 1), log=T))
> AIC
[1] 819.329

(Ho dovuto copiare manualmente il valore montato , in quanto non riuscivo a trovarlo nell'oggetto) $\phi$ summary(glmQP)glmQP

Dal momento che , ciò indicherebbe che il quasipoisson è, ovviamente, la soluzione migliore; quindi almeno fa quello che dovrebbe fare, e quindi potrebbe essere una definizione ragionevole per l'AIC (e, per estensione, probabilità) di un quasipoisson. Le grandi domande che mi rimangono sono quindi $AIC_{QP} < AIC_{NB}$ $AIC_{QP}$

Questa idea ha senso? La mia verifica si basa su un ragionamento circolare?
La domanda principale per chiunque 'inventa' qualcosa che sembra mancare da un argomento ben definito: se questa idea ha senso, perché non è già stata implementata glm?

Modifica: figura aggiunta

glm fit e + -1 sigma bands

— user28400
fonte

(+1) Benvenuto in Cross Validated! E grazie per un'ottima domanda (anche se alcuni commenti nel codice potrebbero essere utili per le persone che non usano R). Penso che potresti aver reinventato il modello NB1 (anche se non l'ho ancora seguito in dettaglio). Si noti inoltre che non esiste una distribuzione quasi-Poisson - motivo per cui non esiste alcuna probabilità o AIC - si riferisce solo a un modo di adattamento di mezzi e varianze.

— Scortchi - Ripristina Monica

Grazie! Nel frattempo ho aggiunto alcuni commenti, spero che chiarisca le cose. Capisco che la distribuzione quasi-Poisson non esiste di per sé - quello che stavo davvero cercando di capire è il motivo per cui il QP è addirittura una cosa, considerando che la distribuzione NB1 esiste e non presenta alcun quasi-problema del QP (vedi la risposta di Achims per una risoluzione apparente).

— user28400

@Scortchi --- realtà, c'è tale distribuzione ... Se

, e

, allora

è famiglia esponenziale con media

e varianza

. Se

X \sim Pois (λ)

$X\sim\text{Pois}(\lambda)$

Y = k X

$Y=kX$

Y

$Y$

μ = k λ

$\mu=k\lambda$

k μ

$k\mu$

k \neq 1

$k\neq 1$

0, k, 2 k, . . .

$0,k,2k,...$

@Glen_b: la gente lo chiama davvero il quasi-Poisson? In ogni caso è una buona illustrazione - quando usi un modello "quasiPoisson" non stai davvero assumendo quella distribuzione, o NB1, o qualsiasi altro, solo una relazione tra media e varianza che rende le tue stime dei coefficienti e i loro errori standard meglio quando il campione diventa più grande.

— Scortchi - Ripristina Monica

@Scortchi È l'unica distribuzione esponenziale della famiglia che soddisfa i presupposti del quasi-Poisson, in un certo senso - a volte ho visto la gente sottolineare che è la distribuzione che implica l'assunzione. Naturalmente quando le persone lo usano, quasi * non intendono mai che i loro dati provengano da quella specifica distribuzione - è solo inteso come una descrizione approssimativa di come la loro media e varianza si collegano. (Potrebbe avere senso sotto ipotesi molto semplici in alcune applicazioni assicurative - costo totale dei sinistri, in cui il numero dei sinistri è Poisson e il costo per sinistro è effettivamente costante.)

— Glen_b -Reststate Monica

Il quasi-Poisson non è un modello a massima verosimiglianza (ML) ma un modello quasi-ML. Basta usare la funzione di stima (o funzione di punteggio) del modello di Poisson per stimare i coefficienti, quindi impiegare una certa funzione di varianza per ottenere opportuni errori standard (o piuttosto una matrice di covarianza completa) per eseguire l'inferenza. Quindi, glm()non fornisce e logLik()o AIC()qui ecc.

Come correttamente sottolineato, un modello con la stessa funzione di aspettativa e varianza può essere incorporato nel framework binomiale negativo (NB) se il sizeparametro $\theta_i$ $\mu_i$

Se non ci sono regressori (solo un intercettano) la parametrizzazione NB1 e la parametrizzazione NB2 impiegato da MASS's glm.nb()coincidono. Con i regressori differiscono. Nella letteratura statistica la parametrizzazione NB2 viene utilizzata più frequentemente, ma alcuni pacchetti software offrono anche la versione NB1. Ad esempio in R, puoi usare il gamlsspacchetto per fare gamlss(y ~ x, family = NBII). Si noti che gamlssutilizza in modo un po 'confuso NBIper la parametrizzazione NB2 e NBIIper NB1. (Ma il gergo e la terminologia non sono unificati in tutte le comunità.)

Quindi potresti chiedere, ovviamente, perché usare quasi-Poisson se è disponibile NB1? C'è ancora una sottile differenza: il primo usa quasi-ML e ottiene la stima dalla dispersione dei residui di deviazione quadrata (o Pearson). Quest'ultimo utilizza ML completo. In pratica, la differenza spesso non è grande, ma le motivazioni per l'utilizzo di entrambi i modelli sono leggermente diverse.

— Achim Zeileis
fonte

Grazie! Risposta molto utile, sto sperimentando gamlssora e sembra che sia esattamente quello di cui avevo bisogno. Potresti approfondire le motivazioni per l'utilizzo della quasi-verosimiglianza rispetto alla ML completa?

— user28400

Assumi meno: supponi solo (1) una relazione log-lineare tra l'attesa e i regressori (2) una relazione lineare tra varianza e aspettativa. Il resto della probabilità viene lasciato completamente non specificato. In alternativa a (2), i professionisti a volte impiegano i cosiddetti errori standard "robusti" a sandwich che consentirebbero schemi di eteroschedasticità più generali. Naturalmente, si potrebbe anche utilizzare NB1 con errori standard sandwich ... Alcuni altri commenti sono nel nostro vignette("countreg", package = "pscl").

— Achim Zeileis,