Quando utilizzare i GLM gamma?


88

La distribuzione gamma può assumere una gamma piuttosto ampia di forme e, dato il legame tra media e varianza attraverso i suoi due parametri, sembra adatta a trattare l'eteroschedasticità nei dati non negativi, in modo che OLS trasformato in log possa non fare a meno di WLS o di una sorta di stimatore VCV coerente con l'eteroschedasticità.

Lo userei di più per la modellazione di dati non negativi di routine, ma non conosco nessun altro che lo utilizza, non l'ho imparato in un ambiente di classe formale e la letteratura che leggo non lo usa mai. Ogni volta che google qualcosa come "usi pratici della gamma GLM", mi viene in mente di usarlo per i tempi di attesa tra gli eventi di Poisson. OK. Ma questo sembra restrittivo e non può essere il suo unico utilizzo.

Ingenuamente, sembra che la gamma GLM sia un mezzo relativamente semplice per modellare dati non negativi, data la flessibilità della gamma. Naturalmente è necessario controllare i grafici QQ e i grafici residui come qualsiasi modello. Ma ci sono seri inconvenienti che mi mancano? Oltre la comunicazione alle persone che "gestiscono semplicemente OLS"?

Risposte:


57

La gamma ha una proprietà condivisa dal lognormale; vale a dire che quando il parametro di forma viene mantenuto costante mentre il parametro di scala viene variato (come avviene di solito quando si utilizza uno dei due modelli), la varianza è proporzionale al quadrato medio (coefficiente di variazione costante).

Qualcosa di approssimativo a ciò si verifica abbastanza spesso con dati finanziari, o addirittura con molti altri tipi di dati.

Di conseguenza è spesso adatto a dati che sono continui, positivi, inclinati a destra e in cui la varianza è quasi costante sulla scala dei registri, sebbene ci siano molte altre scelte ben note (e spesso abbastanza facilmente disponibili) con quelle proprietà.

Inoltre, è comune inserire un log-link con la gamma GLM (è relativamente più raro usare il link naturale). Ciò che lo rende leggermente diverso dall'adattare un normale modello lineare ai registri dei dati è che sulla scala del registro la gamma viene lasciata inclinata a vari gradi mentre il normale (il registro di un lognormale) è simmetrico. Questo lo rende (la gamma) utile in una varietà di situazioni.

Ho visto usi pratici per la gamma GLMs discussi (con esempi di dati reali) in (fuori dalla mia testa) de Jong & Heller e Frees , nonché numerosi articoli; Ho visto anche applicazioni in altre aree. Oh, e se ricordo bene, la MASS di Venables e Ripley lo usa sull'assenteismo scolastico (i dati delle quine; Modifica: si scopre che in realtà è in Complementi statistici di MASS , vedi p11, la 14a pagina del pdf, ha un link di registro ma c'è un piccolo spostamento del DV). Uh, McCullagh e Nelder hanno fatto un esempio di coagulazione del sangue, anche se forse potrebbe essere stato un collegamento naturale.

Poi c'è il libro di Faraway in cui ha fatto un esempio di assicurazione auto e un esempio di dati di produzione di semiconduttori.

Ci sono alcuni vantaggi e alcuni svantaggi nella scelta di una delle due opzioni. Da questi tempi entrambi sono facili da montare; si tratta generalmente di scegliere ciò che è più adatto.

È tutt'altro che l'unica opzione; per esempio, ci sono anche GLM gaussiane inverse, che sono più inclinate / più pesanti (e persino più eteroschedastiche) di quelle gamma o lognormali.

Per quanto riguarda gli svantaggi, è più difficile fare intervalli di previsione. Alcuni display diagnostici sono più difficili da interpretare. Le aspettative di calcolo sulla scala del predittore lineare (generalmente la scala logaritmica) sono più difficili rispetto al modello lognormale equivalente. I test e gli intervalli di ipotesi sono generalmente asintotici. Questi sono spesso problemi relativamente minori.

Presenta alcuni vantaggi rispetto alla regressione lognormale log-link (acquisizione dei log e adattamento di un normale modello di regressione lineare); uno è che la previsione media è facile.


3
Dovrebbe essere "Gamma" o "gamma"? Sappiamo che non ha un nome per una persona. Ho visto la "g" minuscola molto più frequentemente. Chiaramente la distribuzione prende il nome dalla funzione, che risale al 18 ° secolo.
Nick Cox,

2
Γ

@NickCox L'ho cambiato come mi hai suggerito e ho risolto "Inverse Gaussian" mentre ero lì.
Glen_b,

1
@Gleb_b: usi ancora il collegamento del registro con la famiglia gaussiana inversa?
Dimitriy V. Masterov,

@ DimitriyV.Masterov È meno usato, quindi è più difficile generalizzare. Da quello che ho visto, è abbastanza comune usare un log-link con gaussiano inverso, ma altri collegamenti possono essere adatti in alcune situazioni, come un collegamento inverso.
Glen_b,

28

Questa è una bella domanda. In effetti, perché le persone non usano più modelli lineari generalizzati (GLM) è anche una buona domanda.

Nota di avviso: alcune persone usano GLM per un modello lineare generale, non ciò che è in mente qui.

  • Dipende da dove guardi. Ad esempio, le distribuzioni gamma sono state popolari in diverse scienze ambientali per alcuni decenni e quindi anche la modellazione con variabili predittive è un'estensione naturale. Ci sono molti esempi in idrologia e geomorfologia, per nominare alcuni campi in cui mi sono allontanato.

  • È difficile stabilire con precisione quando usarlo oltre una risposta vuota di ogni volta che funziona meglio. Dati dati positivi distorti, spesso mi ritroverò a provare modelli gamma e lognormali (nel collegamento al registro di contesto GLM, famiglia normale o gaussiana) e scegliere quale funziona meglio.

  • La modellazione gamma è rimasta piuttosto difficile da fare fino a poco tempo fa, sicuramente rispetto a dire prendere registri e applicare regressioni lineari, senza scrivere molto codice da soli. Anche ora, immagino che non sia altrettanto facile in tutti i principali ambienti software statistici.

  • Nello spiegare ciò che viene usato e ciò che non viene utilizzato, nonostante i meriti e i demeriti, penso che tu dipenda sempre esattamente dal tipo di fattori che identifichi: ciò che viene insegnato, ciò che è nella letteratura che la gente legge, ciò di cui la gente sente parlare lavoro e alle conferenze. Quindi, hai bisogno di una specie di sociologia amatoriale della scienza da spiegare. La maggior parte delle persone sembra seguire percorsi diritti e stretti all'interno dei propri campi. Liberamente, più ampia è la letteratura interna in qualsiasi campo sulle tecniche di modellistica, meno le persone propense in quel campo sembrano provare qualcosa di diverso.


1
Come si determina quale funziona meglio?
Dimitriy V. Masterov,

7
Guardo le probabilità, i quadrati a R (nonostante ciò che la gente dice), gli intervalli di confidenza attorno alle stime dei parametri, i grafici osservati rispetto a quelli adattati, residui rispetto a quelli adattati, ecc. Se esistesse la scienza a favore di un modello rispetto a un altro, ciò peserebbe anche, ma in la mia esperienza scientifica non è così ben formata. In quale altro modo si potrebbe fare?
Nick Cox,

@NickCox Cosa dovremmo cercare quando si osservano le analisi rispetto a quelle montate, ai residui rispetto a quelle montate e al normale qq? Capisco che questo potrebbe differire tra i modelli. Potresti dare un esempio di gamma, poisson e binomio negativo? Grazie
tatami,

@tatami Questa è una domanda completamente nuova, o più, penso. Se lo chiedi, vedrai chi morde. Non ho mai pensato che un modello gamma e un modello binomiale negativo fossero rivali in qualsiasi progetto, ma potrebbe essere un fallimento dell'immaginazione o dell'esperienza.
Nick Cox,

13

La regressione gamma è nel GLM e quindi è possibile ottenere molte quantità utili a scopi diagnostici, come i residui di devianza, le leve, la distanza di Cook e così via. Forse non sono così belli come le quantità corrispondenti per i dati trasformati nel registro.

Una cosa che la regressione gamma evita rispetto al lognormale è il bias di trasformazione. La disuguaglianza di Jensen implica che le previsioni della regressione lognormale saranno sistematicamente distorte perché modella i dati trasformati anziché il valore atteso trasformato.

Inoltre, la regressione gamma (o altri modelli per dati non negativi) può far fronte a una matrice di dati più ampia rispetto a quella lognormale, poiché può avere una modalità a 0, come quella che hai con la distribuzione esponenziale, che è nella gamma famiglia, impossibile per il lognormale.

Ho letto suggerimenti secondo cui l'uso della probabilità di Poisson come quasi-probabilità è più stabile. Sono coniugati l'uno dell'altro. Il quasi-Poisson ha anche il sostanziale vantaggio di essere in grado di far fronte a valori 0 esatti, che disturbano sia la gamma che, soprattutto, il lognormale.


11

A mio avviso, si presume che gli errori si trovino in una famiglia di distribuzioni gamma, con le stesse forme e con le scale che cambiano secondo la formula correlata.

Ma è difficile fare una diagnosi modello. Si noti che il semplice diagramma QQ non è adatto qui, perché si tratta della stessa distribuzione, mentre la nostra è una famiglia di distribuzioni con varianze diverse.

Ingenuamente, il diagramma dei residui può essere usato per vedere che hanno scale diverse ma la stessa forma, di solito con code lunghe.

Nella mia esperienza, la gamma GLM può essere provata per alcuni problemi distribuiti a coda lunga, ed è ampiamente usata nei settori assicurativi e ambientali, ecc. Ma i presupposti sono difficili da testare e il modello non funziona bene di solito, quindi documenti diversi sostengono di usare altre distribuzioni familiari con lo stesso problema, come il gaussiano inverso, ecc. In pratica, sembra che tali scelte dipendono dal giudizio di esperti con l'esperienza industriale. Ciò limita l'uso della gamma GLM.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.