Risposta breve
La sovradispersione non ha importanza quando si stima un vettore di coefficienti di regressione per la media condizionale in un modello quasi / poisson! Starai bene se dimentichi la sovradispersione, usa glmnet con la famiglia Poisson e ti concentri solo sul fatto che il tuo errore di previsione validato in modo incrociato sia basso.
La qualifica segue di seguito.
Poisson, Quasi-Poisson e funzioni di stima:
Dico quanto sopra perché la sovradispersione (OD) in un modello poisson o quasi-poisson influenza qualsiasi cosa abbia a che fare con la dispersione (o varianza o scala o eterogeneità o diffusione o come si desidera chiamarla) e come tale ha un effetto sullo standard errori e intervalli di confidenza ma lascia intatte le stime per la media condizionale di (chiamata ). Ciò vale in particolare per le decomposizioni lineari della media, comeyμx⊤β .
Ciò deriva dal fatto che le equazioni di stima per i coefficienti della media condizionale sono praticamente le stesse per entrambi i modelli di poisson e quasi-poisson. Quasi-poisson specifica la funzione di varianza in termini di media e un parametro aggiuntivo (diciamo ) come (con per Poisson = 1), ma il non risulta essere rilevante quando si ottimizza l'equazione di stima. Pertanto, non ha alcun ruolo nella stima della quando la media condizionale e la varianza sono proporzionali. Pertanto le stime puntuali sono identiche per i modelli quasi e poisson!θVar(y)=θμθθθββ^
Permettetemi di illustrare con un esempio (si noti che è necessario scorrere per vedere l'intero codice e l'output):
> library(MASS)
> data(quine)
> modp <- glm(Days~Age+Sex+Eth+Lrn, data=quine, family="poisson")
> modqp <- glm(Days~Age+Sex+Eth+Lrn, data=quine, family="quasipoisson")
> summary(modp)
Call:
glm(formula = Days ~ Age + Sex + Eth + Lrn, family = "poisson",
data = quine)
Deviance Residuals:
Min 1Q Median 3Q Max
-6.808 -3.065 -1.119 1.819 9.909
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 2.71538 0.06468 41.980 < 2e-16 ***
AgeF1 -0.33390 0.07009 -4.764 1.90e-06 ***
AgeF2 0.25783 0.06242 4.131 3.62e-05 ***
AgeF3 0.42769 0.06769 6.319 2.64e-10 ***
SexM 0.16160 0.04253 3.799 0.000145 ***
EthN -0.53360 0.04188 -12.740 < 2e-16 ***
LrnSL 0.34894 0.05204 6.705 2.02e-11 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 2073.5 on 145 degrees of freedom
Residual deviance: 1696.7 on 139 degrees of freedom
AIC: 2299.2
Number of Fisher Scoring iterations: 5
> summary(modqp)
Call:
glm(formula = Days ~ Age + Sex + Eth + Lrn, family = "quasipoisson",
data = quine)
Deviance Residuals:
Min 1Q Median 3Q Max
-6.808 -3.065 -1.119 1.819 9.909
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.7154 0.2347 11.569 < 2e-16 ***
AgeF1 -0.3339 0.2543 -1.313 0.191413
AgeF2 0.2578 0.2265 1.138 0.256938
AgeF3 0.4277 0.2456 1.741 0.083831 .
SexM 0.1616 0.1543 1.047 0.296914
EthN -0.5336 0.1520 -3.511 0.000602 ***
LrnSL 0.3489 0.1888 1.848 0.066760 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for quasipoisson family taken to be 13.16691)
Null deviance: 2073.5 on 145 degrees of freedom
Residual deviance: 1696.7 on 139 degrees of freedom
AIC: NA
Number of Fisher Scoring iterations: 5
Come puoi vedere anche se abbiamo una forte sovraispersione di 12.21 in questo set di dati (per deviance(modp)/modp$df.residual
) i coefficienti di regressione (stime puntuali) non cambiano affatto. Ma nota come cambiano gli errori standard.
La questione dell'effetto della sovradispersione nei modelli di poisson penalizzati
I modelli penalizzati sono usati principalmente per la previsione e la selezione delle variabili e non (ancora) per l'inferenza. Quindi le persone che usano questi modelli sono interessate ai parametri di regressione per la media condizionale, che si restringe solo verso zero. Se la penalizzazione è la stessa, anche le equazioni di stima per i mezzi condizionati derivati dalla probabilità (quasi) penalizzata non dipendono da e quindi la sovradispersione non ha importanza per le stime di in un modello del tipo:θβ
g(μ)=x⊤β+f(β)
poiché è stimato allo stesso modo per qualsiasi funzione di varianza della forma , quindi di nuovo per tutti i modelli in cui la media condizionale e la varianza sono proporzionali. βθμQuesto è proprio come nei modelli poisson / quasipoisson non aperti.
Se non vuoi prenderlo al valore nominale ed evitare la matematica, puoi trovare supporto empirico nel fatto che in glmnet
, se imposti il parametro di regolarizzazione su 0 (e quindi ) finisci praticamente dove atterrano i modelli di poisson e quasipoisson (vedi l'ultima colonna sotto dove lambda è 0,005).f(β)=0
> library(glmnet)
> y <- quine[,5]
> x <- model.matrix(~Age+Sex+Eth+Lrn,quine)
> modl <- glmnet(y=y,x=x, lambda=c(0.05,0.02,0.01,0.005), family="poisson")
> coefficients(modl)
8 x 4 sparse Matrix of class "dgCMatrix"
s0 s1 s2 s3
(Intercept) 2.7320435 2.7221245 2.7188884 2.7172098
(Intercept) . . . .
AgeF1 -0.3325689 -0.3335226 -0.3339580 -0.3340520
AgeF2 0.2496120 0.2544253 0.2559408 0.2567880
AgeF3 0.4079635 0.4197509 0.4236024 0.4255759
SexM 0.1530040 0.1581563 0.1598595 0.1607162
EthN -0.5275619 -0.5311830 -0.5323936 -0.5329969
LrnSL 0.3336885 0.3428815 0.3459650 0.3474745
Quindi cosa fa OD ai modelli di regressione penalizzati? Come forse saprai, c'è ancora qualche dibattito sul modo corretto di calcolare gli errori standard per i modelli penalizzati (vedi ad esempio, qui ) e glmnet
non viene comunque emesso, probabilmente per questo motivo. Potrebbe benissimo essere che l'OD influenzerebbe la parte inferenziale del modello, proprio come accade nel caso non penalizzato, ma se non si raggiunge un consenso sull'inferenza in questo caso, non lo sapremo.
Per inciso, si può lasciarsi alle spalle tutto questo disordine se si è disposti ad adottare una visione bayesiana in cui i modelli penalizzati sono solo modelli standard con un precedente specifico.
poisson
e lequasipoisson
regressioni stimano i coefficienti allo stesso modo e ciò che differiscono è il modo in cui stimano gli errori standard e quindi la significatività. Tuttavia, per il metodo lazo, il modo in cui calcolare gli errori standard deve ancora raggiungere un consenso, e quindi il suo uso corrente risiede principalmente nella selezione delle variabili piuttosto che nell'inferenza. Come tale, non importa se usiamoglmnet
con poisson o quasipoisson, ma ciò che fa è che l'errore con convalida incrociata dovrebbe essere minimizzato.