Come interpretare i parametri in GLM con family = Gamma


21

Ho una domanda sull'interpretazione dei parametri per un GLM con una variabile dipendente distribuita gamma. Questo è ciò che R restituisce per il mio GLM con un log-link:

Call:
glm(formula = income ~ height + age + educat + married + sex + language + highschool, 
    family = Gamma(link = log), data = fakesoep)

Deviance Residuals: 
       Min        1Q    Median        3Q       Max  
  -1.47399  -0.31490  -0.05961   0.18374   1.94176  

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  6.2202325  0.2182771  28.497  < 2e-16 ***
height       0.0082530  0.0011930   6.918 5.58e-12 ***
age          0.0001786  0.0009345   0.191    0.848    
educat       0.0119425  0.0009816  12.166  < 2e-16 ***
married     -0.0178813  0.0173453  -1.031    0.303    
sex         -0.3179608  0.0216168 -14.709  < 2e-16 ***
language     0.0050755  0.0279452   0.182    0.856    
highschool   0.3466434  0.0167621  20.680  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for Gamma family taken to be 0.1747557)

Null deviance: 757.46  on 2999  degrees of freedom
Residual deviance: 502.50  on 2992  degrees of freedom
AIC: 49184

Come interpreto i parametri? Se calcolo il exp(coef())mio modello, ottengo ~ 500 per l'intercetta. Ora credo che ciò non significhi il reddito atteso se tutte le altre variabili sono mantenute costanti, vero? Dal momento che la media o si mean(age)trova a ~ 2000. Inoltre non ho idea di come interpretare la direzione e il valore dei coefficienti delle covariate.


6
500 sarebbe vicino al reddito atteso se tutte le altre variabili fossero esattamente zero (non semplicemente costanti) --- proprio come nella regressione, davvero.
Glen_b -Restate Monica

@Glen_b perché dovrebbe essere previsto un reddito quando esponenziale dei coefficienti è l'effetto moltiplicativo sul reddito quando si verifica una variazione nella variabile esplicativa?
tatami

Il caso in discussione è la media condizionata quando tutte le variabili esplicative sono 0.
Glen_b -Reinstate Monica

Risposte:


25

La specifica gamma GLM collegata al log è identica alla regressione esponenziale:

E[y|X,z]=exp(α+βX+γz)=y^

Ciò significa che . Questo non è un valore molto significativo (a meno che tu non abbia centrato in anticipo le tue variabili per essere zero zero).E[y|X=0,z=0]=exp(α)

Esistono almeno tre modi per interpretare il tuo modello. Uno è prendere la derivata del valore atteso di dato rispetto a :yXX

E[y|X,z]X=exp(α+βX+γz)β=y^β

Questa quantità dipende da e , quindi è possibile valutarla in base ai valori medi / mediani / modali o rappresentativi di e , oppure prendere la media di sul campione. Questi sono entrambi chiamati effetti marginali. Queste derivate hanno senso solo per variabili continue (come l'altezza) e indicano un effetto aggiuntivo di una piccola modifica in su .XzXzy^βXy

Se fosse binario (come il sesso), potresti considerare invece il calcolo delle differenze finite: X

E[y|z,X=1]-E[y|z,X=0]=exp(α+β+γz)-exp(α+γz)=exp(α+γz)(exp(β)-1)

Questo ha più senso poiché è difficile immaginare un cambiamento infinitesimale nel sesso. Naturalmente, puoi anche farlo con una variabile continua. Questi sono effetti additivi da un cambio di un'unità in , piuttosto che da un piccolo.X

Il terzo metodo è esponenziare i coefficienti. Nota che:

E[y|z,X+1]=exp(α+β(X+1)+γz)=exp(α+βX+β+γz)=exp(α+βX+γz)exp(β)=E[y|z,X]exp(β)

Ciò significa che è possibile interpretare i coefficienti esponenziali in modo moltiplicativo anziché additivo. Ti danno il moltiplicatore sul valore atteso quando cambia di 1.X


1
Saresti in grado di illustrare la seconda interpretazione?
tatami

@tatami Ho corretto un errore nel caso binario. Ha più senso ora?
Dimitriy V. Masterov,

2

Per prima cosa guarderei i residui per vedere se il modello si adatta bene. Se va bene, proverei ad usare altre funzioni di collegamento a meno che non avessi motivo di credere che provenisse davvero da una distribuzione gamma. Se la gamma sembrasse ancora convincente, concluderei che i termini statisticamente significativi sono intercettazione, altezza, educazione, sesso e liceo (quelli contrassegnati con tre stelle). Tra loro non si può dire di più se non sono standardizzati (hanno lo stesso intervallo).

Risposta al commento: ora capisco meglio la tua domanda. Puoi assolutamente farlo! Un aumento di unità in altezza provoca una variazione relativa del reddito in exp (0,0082530) -1 ~ = 0,0082530 (usando l'approssimazione x = 1 + x per la piccola x) . Molto facile da interpretare, no?


1
Quindi non posso effettivamente interpretare i parametri, ad esempio il reddito aumenta di xy se l'altezza aumenta di uno?

1
Ora credo di doverlo interpretare in modo moltiplicativo: exp (Intercetta) * exp (altezza) sarebbe il reddito con un aumento di 1 unità in altezza. Grazie comunque! :)
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.