Gamma GLM log-linked vs GLM gaussiano log-linked vs LM trasformato in log


13

Dai miei risultati, sembra che GLM Gamma soddisfi la maggior parte delle ipotesi, ma è un miglioramento utile rispetto alla LM trasformata in tronchi? La maggior parte della letteratura che ho trovato accordi con Poisson o Binomial GLMs. Ho trovato l'articolo VALUTAZIONE DELLE ASSUNZIONI DEL MODELLO LINEARE GENERALIZZATO MEDIANTE LA RANDOMIZZAZIONE molto utile, ma manca delle trame reali utilizzate per prendere una decisione. Spero che qualcuno con esperienza possa indicarmi la giusta direzione.

Voglio modellare la distribuzione della mia variabile di risposta T, la cui distribuzione è tracciata di seguito. Come si può vedere, si tratta di asimmetria positiva:
XHTML valido.

Ho due fattori categorici da considerare: METH e CASEPART.
Si noti che questo studio è principalmente esplorativo, che serve essenzialmente come studio pilota prima di teorizzare un modello ed eseguire il DoE attorno ad esso.

Ho i seguenti modelli in R, con i loro grafici diagnostici:

LM.LOG<-lm(log10(T)~factor(METH)+factor(CASEPART),data=tdat)

XHTML valido
XHTML valido

GLM.GAMMA<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="Gamma"(link='log'))

XHTML valido
XHTML valido

GLM.GAUS<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="gaussian"(link='log'))

XHTML valido
XHTML valido

Ho anche raggiunto i seguenti valori P tramite i test di Shapiro-Wilks sui residui:

LM.LOG: 2.347e-11  
GLM.GAMMA: 0.6288  
GLM.GAUS:  0.6288  

Ho calcolato i valori AIC e BIC, ma se ho ragione, non mi dicono molto a causa delle diverse famiglie nei GLM / LM.

Inoltre, ho notato i valori estremi, ma non posso classificarli come valori anomali in quanto non esiste una chiara "causa speciale".



1
Vale la pena notare che tutti e tre i modelli sono moltiplicativi, nel senso che un aumento di un regressore è associato a un cambiamento relativo nella risposta tipica. Per i due GLM log-lineari, "tipico" significa media aritmetica, mentre per la LM trasformata in log stiamo parlando di mezzi geometrici. Pertanto, il modo in cui si desidera interpretare gli effetti e le previsioni è anche un fattore trainante per la scelta del modello, non solo con grafici residui perfetti (questi sono comunque guidati dai dati).
Michael M,

@MichaelMayer - Grazie per la risposta, molto utile. Potresti espandere un po 'esattamente su come la scelta influisce sull'interpretazione? O indicarmi la direzione di un riferimento?
TLJ

@ Marcinthebox- Ho esaminato la domanda prima di pubblicare. Non risponde esattamente alla mia domanda in modo molto conciso.
TLJ

Risposte:


19

Bene, abbastanza chiaramente l'adattamento log-lineare al gaussiano non è adatto; c'è una forte eteroschedasticità nei residui. Quindi prendiamolo in considerazione.

Ciò che rimane è lognormale vs gamma.

T

Entrambi i modelli sembrano quasi ugualmente adatti in questo caso. Entrambi hanno una varianza proporzionale al quadrato della media, quindi il modello di diffusione nei residui rispetto all'adattamento è simile.

Un outlier basso si adatterà leggermente meglio con una gamma rispetto a un lognormale (viceversa per un outlier alto). A una data media e varianza, il lognormale è più inclinato e ha un coefficiente di variazione più elevato.

exp(μ)σ2

Vedi anche qui e qui per alcune discussioni correlate.


1
@Gleb_b questa risposta è molto utile per la mia analisi. Ho alcune domande. (1) In primo luogo, è 'Hanno entrambi una varianza proporzionale al quadrato della media ...' in base al diagramma residuo vs adattato? (2) Ed è questo 'Un valore anomalo basso si adatterà leggermente meglio con una gamma ... Ad una data media e varianza, ...' basato sul diagramma qq? (3) Da quello che ho capito glm (es. Gamma, poisson e binomio negativo) non ha il presupposto della normalità dei residui e dell'omogeneità della varianza. In tal caso, perché il tracciamento dei residui rispetto al grafico qq montato e normale dovrebbe essere rilevante per la diagnostica?
tatami,

2
Questo è abbastanza ampio da essere una domanda completamente nuova, o in effetti molti (molti dei quali hanno già una risposta sul nostro sito!) - 1. parte del modello. 2. No, questi sono fatti generali relativi alle distribuzioni. 3. Corretti, non sono normali, tuttavia i residui utilizzati nel diagramma QQ sono residui di devianza (internamente studentizzati) che, in particolare nel caso gamma, tenderanno generalmente ad essere molto vicini alla distribuzione normale (ho scritto una risposta spiegando perché a qualche punto) e dovrebbe avere una variazione sostanzialmente costante. Qualche deviazione dalla normalità non è inaspettata ma sostanziale deviazione ... ctd
Glen_b -Reinstate Monica

2
ctd ... dalla normalità (supponendo che gli altri grafici vadano bene) può indicare un problema con l'assunto distributivo.
Glen_b -Restate Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.