dispersione in summary.glm ()


13

Ho condotto un glm.nb di

glm1<-glm.nb(x~factor(group))

con group essendo un categoriale e x essendo una variabile metrica. Quando provo a ottenere il riepilogo dei risultati, ottengo risultati leggermente diversi, a seconda se utilizzo summary()o summary.glm. summary(glm1)mi da

    ...
Coefficients:
                    Estimate Std. Error z value Pr(>|z|)  
    (Intercept)       0.1044     0.1519   0.687   0.4921  
    factor(gruppe)2   0.1580     0.2117   0.746   0.4555  
    factor(gruppe)3   0.3531     0.2085   1.693   0.0904 .
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

    (Dispersion parameter for Negative Binomial(0.7109) family taken to be 1)

mentre summary.glm (glm1) mi dà

    ...
Coefficients:
                    Estimate Std. Error t value Pr(>|t|)  
    (Intercept)       0.1044     0.1481   0.705   0.4817  
    factor(gruppe)2   0.1580     0.2065   0.765   0.4447  
    factor(gruppe)3   0.3531     0.2033   1.737   0.0835 .
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

    (Dispersion parameter for Negative Binomial(0.7109) family taken to be 0.9509067)

Capisco il significato del parametro dispersion, ma non della linea

(Dispersion parameter for Negative Binomial(0.7109) family taken to be 0.9509067).

Nel manuale afferma che sarebbe la dispersione stimata, ma sembra essere una stima errata, poiché 0,95 non è vicino a 0,7109 o la dispersione stimata è diversa dal parametro di dispersione stimato? Immagino che devo impostare la dispersione in summary.nb(x, dispersion=)qualcosa, ma non sono sicuro se devo impostare la dispersione su 1 (che produrrà lo stesso risultato summary()o se dovrei inserire una stima del parametro di dispersione, in questo caso porta a summary.nb(glm1, dispersion=0.7109)o qualcos'altro? O sto bene usando solo il summary(glm1)?


2
Usa il sommario () in quanto invia al metodo S3 appropriato per la classe negbin. La dispersione deve ovviamente essere 1, ciò che viene stimato è theta, che è meglio chiamato parametro di forma per evitare confusione. Vedi anche stats.stackexchange.com/questions/27773/how-does-glm-nb-work/…
Momo

Risposte:


13

Innanzitutto, non dovresti usare summary.glmun oggetto di classe "negbin". Se guardi il codice funzione per summary.glm, proprio in alto vedrai il calcolo di dispersion. Si noti che conosce summary.glm solo i modelli che possono essere montati da glme quindi individua le famiglie binomiali e Poisson per un trattamento speciale, in cui il parametro di dispersione è considerato uguale a 1. Per i modelli diversi da questi, ϕ viene calcolato dal modello oggetto, ma si noti che questo si basa sul presupposto che ciò sia appropriato per una famiglia che non è binomiale o Poisson. Il per il modello montato da è . Quindi quando lo usiϕϕfamilyglm.nb"Negative Binomial(theta)"summary.glmsul modello montato da glm.nb, il codice in

if (is.null(dispersion)) 
    dispersion <- if (object$family$family %in% c("poisson", 
        "binomial")) 
        1
    else if (df.r > 0) {
        est.disp <- TRUE
        if (any(object$weights == 0)) 
                warning("observations with zero weight not used for calculating dispersion")
            sum((object$weights * object$residuals^2)[object$weights > 
            0])/df.r
    }

il test per "poisson"o "binomial"fallisce e quindi calcola dove in realtà si presume che sia uguale a 1 per impostazione predefinita per questa famiglia (come da definizione di .ϕsummary.negbin

Non vi è alcun problema con questo, è solo più semplice chiamare il metodo corretto e fornire un valore diverso per tramite argomento .ϕdispersion

In secondo luogo, si fraintende l'output. Quando vedi

Negative Binomial(0.7109)

come ho accennato sopra, il numero citato in parentesi è θ , il parametro della distribuzione binomiale negativa. Questo valore è quello stimato durante il montaggio. Non è ϕ , il parametro dispersion, e quindi i due numeri non dovrebbero essere necessariamente uguali; sono solo due numeri.θ^ϕ

ϕϕ=1summary.negbin

summary(glm1, dispersion = 0.9509)

negbinϕ


5
+1 Bella spiegazione. Ho due piccoli commenti: il parametro di dispersione in binomio, Poisson e binomio negativo con parametro di forma noto è 1 per definizione della famiglia esponenziale (non è un presupposto). Quando si dice che una diversa dispersione può essere stimata e fornita al metodo di riepilogo, si deve fare attenzione perché si avventurerebbe in quasi territorio che ha implicazioni soprattutto per la probabilità.
Momo,

@Momo Ben detto. Sono stato diviso tra ciò che dichiari e i dettagli della pagina di aiuto per le rispettive funzioni.
Ripristina Monica - G. Simpson,

2

θ1θ11θEYEμEμ

f(y)=Γ(θ+y)Γ(θ)y!μyθθ(μ+θ)θ+y

aspettativa

EY=μ

& varianza

VarY=μ+μ2θ

Come sottolineato da @Momo, il parametro di dispersione è un'altra cosa, che faresti variare per fare una stima di quasi-verosimiglianza. Per il modello binomiale negativo e il modello (vero) di Poisson, è giustamente fissato su un valore di uno.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.