In che modo glmnet gestisce l'overdispersione?

Ho una domanda su come modellare il testo sui dati di conteggio, in particolare su come utilizzare la lassotecnica per ridurre le funzionalità.

Supponi di avere N articoli online e il conteggio delle visualizzazioni di pagina per ogni articolo. Ho estratto 1 grammi e 2 grammi per ogni articolo e volevo eseguire una regressione sugli 1,2 grammi. Poiché le caratteristiche (1,2 grammi) sono molto più numerose del numero di osservazioni, il lazo sarebbe un buon metodo per ridurre il numero di caratteristiche. Inoltre, ho scoperto che glmnetè davvero utile per eseguire l'analisi del lazo.

Tuttavia, il numero di conteggio delle pagine visualizzate sono sovradispersa (varianza> media), ma glmnetnon offre quasipoisson(esplicitamente) o negative binomial, ma poissonper i dati di conteggio. La soluzione a cui ho pensato è di log transformcontare i dati (un metodo comunemente usato tra gli scienziati sociali) e fare in modo che la variabile di risposta segua approssimativamente una distribuzione normale. Come tale, potrei eventualmente modellare i dati con la famiglia gaussiana usando glmnet.

Quindi la mia domanda è: è appropriato farlo? Oppure, devo semplicemente usare poisson per glmnetnel caso in cui glmnetle maniglie quasipoisson? Oppure, ci sono altri pacchetti R che gestiscono questa situazione?

Grazie mille!

— Sonya S.
fonte

Risposta breve

La sovradispersione non ha importanza quando si stima un vettore di coefficienti di regressione per la media condizionale in un modello quasi / poisson! Starai bene se dimentichi la sovradispersione, usa glmnet con la famiglia Poisson e ti concentri solo sul fatto che il tuo errore di previsione validato in modo incrociato sia basso.

La qualifica segue di seguito.

Poisson, Quasi-Poisson e funzioni di stima:

Dico quanto sopra perché la sovradispersione (OD) in un modello poisson o quasi-poisson influenza qualsiasi cosa abbia a che fare con la dispersione (o varianza o scala o eterogeneità o diffusione o come si desidera chiamarla) e come tale ha un effetto sullo standard errori e intervalli di confidenza ma lascia intatte le stime per la media condizionale di (chiamata ). Ciò vale in particolare per le decomposizioni lineari della media, come $y$ $\mu$ $x^\top\beta$ .

Ciò deriva dal fatto che le equazioni di stima per i coefficienti della media condizionale sono praticamente le stesse per entrambi i modelli di poisson e quasi-poisson. Quasi-poisson specifica la funzione di varianza in termini di media e un parametro aggiuntivo (diciamo ) come (con per Poisson = 1), ma il non risulta essere rilevante quando si ottimizza l'equazione di stima. Pertanto, non ha alcun ruolo nella stima della quando la media condizionale e la varianza sono proporzionali. Pertanto le stime puntuali sono identiche per i modelli quasi e poisson! $\theta$ $Var(y)=\theta\mu$ $\theta$ $\theta$ $\theta$ $\beta$ $\hat{\beta}$

Permettetemi di illustrare con un esempio (si noti che è necessario scorrere per vedere l'intero codice e l'output):

> library(MASS)
> data(quine) 
> modp <- glm(Days~Age+Sex+Eth+Lrn, data=quine, family="poisson")
> modqp <- glm(Days~Age+Sex+Eth+Lrn, data=quine, family="quasipoisson")
> summary(modp)

Call:
glm(formula = Days ~ Age + Sex + Eth + Lrn, family = "poisson", 
    data = quine)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-6.808  -3.065  -1.119   1.819   9.909  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  2.71538    0.06468  41.980  < 2e-16 ***
AgeF1       -0.33390    0.07009  -4.764 1.90e-06 ***
AgeF2        0.25783    0.06242   4.131 3.62e-05 ***
AgeF3        0.42769    0.06769   6.319 2.64e-10 ***
SexM         0.16160    0.04253   3.799 0.000145 ***
EthN        -0.53360    0.04188 -12.740  < 2e-16 ***
LrnSL        0.34894    0.05204   6.705 2.02e-11 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for poisson family taken to be 1)

    Null deviance: 2073.5  on 145  degrees of freedom
Residual deviance: 1696.7  on 139  degrees of freedom
AIC: 2299.2

Number of Fisher Scoring iterations: 5

> summary(modqp)

Call:
glm(formula = Days ~ Age + Sex + Eth + Lrn, family = "quasipoisson", 
    data = quine)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-6.808  -3.065  -1.119   1.819   9.909  

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.7154     0.2347  11.569  < 2e-16 ***
AgeF1        -0.3339     0.2543  -1.313 0.191413    
AgeF2         0.2578     0.2265   1.138 0.256938    
AgeF3         0.4277     0.2456   1.741 0.083831 .  
SexM          0.1616     0.1543   1.047 0.296914    
EthN         -0.5336     0.1520  -3.511 0.000602 ***
LrnSL         0.3489     0.1888   1.848 0.066760 .  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for quasipoisson family taken to be 13.16691)

    Null deviance: 2073.5  on 145  degrees of freedom
Residual deviance: 1696.7  on 139  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 5

Come puoi vedere anche se abbiamo una forte sovraispersione di 12.21 in questo set di dati (per deviance(modp)/modp$df.residual) i coefficienti di regressione (stime puntuali) non cambiano affatto. Ma nota come cambiano gli errori standard.

La questione dell'effetto della sovradispersione nei modelli di poisson penalizzati

I modelli penalizzati sono usati principalmente per la previsione e la selezione delle variabili e non (ancora) per l'inferenza. Quindi le persone che usano questi modelli sono interessate ai parametri di regressione per la media condizionale, che si restringe solo verso zero. Se la penalizzazione è la stessa, anche le equazioni di stima per i mezzi condizionati derivati dalla probabilità (quasi) penalizzata non dipendono da e quindi la sovradispersione non ha importanza per le stime di in un modello del tipo: $\theta$ $\beta$

$g(\mu)=x^\top\beta + f(\beta)$

poiché è stimato allo stesso modo per qualsiasi funzione di varianza della forma , quindi di nuovo per tutti i modelli in cui la media condizionale e la varianza sono proporzionali. $\beta$ $\theta \mu$ Questo è proprio come nei modelli poisson / quasipoisson non aperti.

Se non vuoi prenderlo al valore nominale ed evitare la matematica, puoi trovare supporto empirico nel fatto che in glmnet, se imposti il parametro di regolarizzazione su 0 (e quindi ) finisci praticamente dove atterrano i modelli di poisson e quasipoisson (vedi l'ultima colonna sotto dove lambda è 0,005). $f(\beta)=0$

> library(glmnet)
> y <- quine[,5]
> x <- model.matrix(~Age+Sex+Eth+Lrn,quine)
> modl <- glmnet(y=y,x=x, lambda=c(0.05,0.02,0.01,0.005), family="poisson")
> coefficients(modl)
8 x 4 sparse Matrix of class "dgCMatrix"
                    s0         s1         s2         s3
(Intercept)  2.7320435  2.7221245  2.7188884  2.7172098
(Intercept)  .          .          .          .        
AgeF1       -0.3325689 -0.3335226 -0.3339580 -0.3340520
AgeF2        0.2496120  0.2544253  0.2559408  0.2567880
AgeF3        0.4079635  0.4197509  0.4236024  0.4255759
SexM         0.1530040  0.1581563  0.1598595  0.1607162
EthN        -0.5275619 -0.5311830 -0.5323936 -0.5329969
LrnSL        0.3336885  0.3428815  0.3459650  0.3474745

Quindi cosa fa OD ai modelli di regressione penalizzati? Come forse saprai, c'è ancora qualche dibattito sul modo corretto di calcolare gli errori standard per i modelli penalizzati (vedi ad esempio, qui ) e glmnetnon viene comunque emesso, probabilmente per questo motivo. Potrebbe benissimo essere che l'OD influenzerebbe la parte inferenziale del modello, proprio come accade nel caso non penalizzato, ma se non si raggiunge un consenso sull'inferenza in questo caso, non lo sapremo.

Per inciso, si può lasciarsi alle spalle tutto questo disordine se si è disposti ad adottare una visione bayesiana in cui i modelli penalizzati sono solo modelli standard con un precedente specifico.

— Momo
fonte

@Mono, grazie per la tua spiegazione molto dettagliata! Ecco la mia comprensione, e per favore correggimi se sbaglio: poissone le quasipoissonregressioni stimano i coefficienti allo stesso modo e ciò che differiscono è il modo in cui stimano gli errori standard e quindi la significatività. Tuttavia, per il metodo lazo, il modo in cui calcolare gli errori standard deve ancora raggiungere un consenso, e quindi il suo uso corrente risiede principalmente nella selezione delle variabili piuttosto che nell'inferenza. Come tale, non importa se usiamo glmnetcon poisson o quasipoisson, ma ciò che fa è che l'errore con convalida incrociata dovrebbe essere minimizzato.

— Sonya S.

@Mono, un'altra nota, mi sono imbattuto summary(modqp)e ho visto che aveva esattamente le stesse stime dei coefficienti. Credo che la tua risposta andrà a beneficio di più persone su questo problema perché non ne ho trovato nessuno, quindi ti suggerisco di aggiungere l'output del sommario (modqp) per un esempio illustrato ancora migliore. Ancora molte grazie!

— Sonya S.,

@Sonya Yours è un buon riassunto. La chiave è che quando si stimano i parametri per la media condizionale, le funzioni di stima (diciamo la funzione di punteggio) per poisson e quasipoisson sono le stesse! Pertanto, per questi parametri non importa se esiste una sanzione o meno, purché si tratti della stessa sanzione. Lo chiarisco più sopra. Grazie anche per il puntatore relativo al riepilogo (modq), ma che è già lì, viene semplicemente "inscatolato" su uno schermo normale, quindi è necessario scorrere verso il basso.

— Momo,

Mi chiedo ancora se è possibile che un numero minore di variabili si riduca in Poisson rispetto a se ci fosse una specifica quasi-Poisson, che è più corretta, e probabilmente porterebbe a una migliore precisione predittiva rispetto al modello di Poisson perché il suo modello di campionamento è più corretto.

— Brash Equilibrium,

In tale nota, potrebbe anche essere che in Poisson vengano rimpicciolite più variabili di quelle che dovrebbero essere ridotte in caso di dispersione UNDER (come quando si utilizza un modello Poisson robusto per stimare i rapporti di rischio relativi per i dati 0/1).

— Brash Equilibrium,