Verifica dei residui per la normalità nei modelli lineari generalizzati


12

Questo documento utilizza modelli lineari generalizzati (distribuzioni di errori binomiali sia binomiali che negativi) per analizzare i dati. Ma poi nella sezione di analisi statistica dei metodi, c'è questa affermazione:

... e in secondo luogo modellando i dati di presenza utilizzando i modelli di regressione logistica e i dati del tempo di foraggiamento utilizzando un modello lineare generalizzato (GLM). Una distribuzione binomiale negativa con una funzione log link è stata utilizzata per modellare i dati del tempo di foraggiamento (Welsh et al. 1996) e l'adeguatezza del modello è stata verificata esaminando i residenti (McCullagh & Nelder 1989). I test di Shapiro – Wilk o Kolmogorov – Smirnov sono stati usati per testare la normalità in base alla dimensione del campione; i dati sono stati trasformati in tronchi prima delle analisi per aderire alla normalità.

Se assumono distribuzioni binomiali e di errori binomiali negativi, allora sicuramente non dovrebbero controllare la normalità dei residui?


2
Si noti che gli errori non sono distribuiti binomialmente: ogni risposta è distribuita binomialmente con un parametro di probabilità dato dai corrispondenti valori predittori, secondo le risposte a una delle altre domande .
Scortchi - Ripristina Monica

3
Non c'è nulla nella regressione binomiale binomiale o negativa di quanto debba essere normale. Se è la risposta che trasformano, potrebbe essere altamente controproducente; rovinerà il GLM.
Glen_b

1
Dalla tua citazione non è chiaro cosa stanno effettivamente testando per la normalità (sei sicuro che siano i residui?) O per quale analisi stanno trasformando i dati (sei sicuro che siano i GLM?).
Scortchi - Ripristina Monica

Ho ampliato un po 'la citazione. Qualcuno potrebbe confermare se ciò che gli autori dell'articolo hanno fatto era sbagliato o giusto?
luciano,

Temo che non sia ancora tremendamente chiaro - contatta gli autori per i dettagli su come hanno effettuato l'analisi se non è spiegato altrove nel documento o nei suoi riferimenti.
Scortchi - Ripristina Monica

Risposte:


16

NB non si prevede che i residui di devianza (o Pearson) abbiano una distribuzione normale, tranne per un modello gaussiano. Per il caso di regressione logistica, come dice @stat, residui di devianza per esima osservazione y i sono date daiyi

riD=2|log(1π^i)|

yi=0

riD=2|log(π^i)|

yi=1πi^

#generate Bernoulli probabilities from true model
x <-rnorm(100)
p<-exp(x)/(1+exp(x))

#one replication per predictor value
n <- rep(1,100)
#simulate response
y <- rbinom(100,n,p)
#fit model
glm(cbind(y,n-y)~x,family="binomial") -> mod
#make quantile-quantile plot of residuals
qqnorm(residuals(mod, type="deviance"))
abline(a=0,b=1)

Grafico QQ n = 1

nii

riD=sgn(yiniπ^i)2[yilogyinπ^i+(niyi)logniyini(1π^i)]

yinini

#many replications per predictor value
n <- rep(30,100)
#simulate response
y<-rbinom(100,n,p)
#fit model
glm(cbind(y,n-y)~x,family="binomial")->mod
#make quantile-quantile plot of residuals
qqnorm(residuals(mod, type="deviance"))
abline(a=0,b=1)

Grafico QQ n = 30

Le cose sono simili per Poisson o GLM binomiali negative: per conteggi bassi previsti la distribuzione dei residui è discreta e distorta, ma tende alla normalità per conteggi maggiori secondo un modello correttamente specificato.

Non è consueto, almeno non nel mio collo dei boschi, condurre una prova formale di normalità residua; se il test di normalità è essenzialmente inutile quando il tuo modello assume la normalità esatta, allora a fortiori è inutile quando non lo fa. Tuttavia, per i modelli insaturi, la diagnostica grafica residua è utile per valutare la presenza e la natura della mancanza di adattamento, prendendo la normalità con un pizzico o un pugno di sale a seconda del numero di replicati per modello predittore.


1

Quello che hanno fatto è corretto! Ti darò un riferimento al doppio controllo. Vedere la sezione 13.4.4 in Introduzione all'analisi della regressione lineare, 5a edizionedi Douglas C. Montgomery, Elizabeth A. Peck, G. Geoffrey Vining. In particolare, guarda gli esempi a pagina 460, dove si inseriscono un bagliore binomiale e ricontrolla l'assunto di normalità dei "Residui della devianza". Come accennato a pagina 458, ciò è dovuto al fatto che "i residui di devianza si comportano in modo molto simile ai residui ordinari in un modello di regressione lineare a teoria normale standard". Quindi ha senso se li traccia sulla normale scala del grafico di probabilità e sui valori adattati. Ancora una volta vedi pagina 456 del riferimento precedente. Negli esempi forniti a pagina 460 e 461, non solo per il caso binomiale, ma anche per il glm di Poisson e il Gamma con (link = log), hanno verificato la normalità dei residui di devianza.
Per il caso binomiale il residuo di devianza è definito come:

riD=2|ln(1πi^)|
yi=0
riD=2|ln(πi^)|
yi=1
> attach(npk)

> #Fitting binomila glm
> fit.1=glm(P~yield,family=binomial(logit))
> 
> #Getting deviance residuals directly
> rd=residuals(fit.1,type = c("deviance"))
> rd
         1          2          3          4          5          6          7 
 1.1038306  1.2892945 -1.2912991 -1.1479881 -1.1097832  1.2282009 -1.1686771 
         8          9         10         11         12         13         14 
 1.1931365  1.2892945  1.1903473 -0.9821829 -1.1756061 -1.0801690  1.0943912 
        15         16         17         18         19         20         21 
-1.3099491  1.0333213  1.1378369 -1.2245380 -1.2485566  1.0943912 -1.1452410 
        22         23         24 
 1.2352561  1.1543163 -1.1617642 
> 
> 
> #Estimated success probabilities
> pi.hat=fitted(fit.1)
> 
> #Obtaining deviance residuals directly
> rd.check=-sqrt(2*abs(log(1-pi.hat)))
> rd.check[P==1]=sqrt(2*abs(log(pi.hat[P==1])))
> rd.check
         1          2          3          4          5          6          7 
 1.1038306  1.2892945 -1.2912991 -1.1479881 -1.1097832  1.2282009 -1.1686771 
         8          9         10         11         12         13         14 
 1.1931365  1.2892945  1.1903473 -0.9821829 -1.1756061 -1.0801690  1.0943912 
        15         16         17         18         19         20         21 
-1.3099491  1.0333213  1.1378369 -1.2245380 -1.2485566  1.0943912 -1.1452410 
        22         23         24 
 1.2352561  1.1543163 -1.1617642 
> 

Controlla anche qui per il caso Poisson.


2
Il tuo esempio è una scelta strana. Hai fatto un grafico in PP o QQ di quei residui di devianza; in tal caso, cosa hai concluso?
Scortchi - Ripristina Monica

5
Il punto è che in questo caso non avrebbe senso verificare la normalità dei residui - chiaramente non sono normalmente distribuiti, né dovrebbero esserlo. È solo quando il numero di osservazioni per ciascun modello predittore aumenta che la distribuzione dei residui (un residuo calcolato per modello predittore) tende alla normalità. Allo stesso modo per un modello binomiale negativo o di Poisson - i conteggi devono essere di grandi dimensioni affinché l'approssimazione normale sia buona.
Scortchi - Ripristina Monica

2
La domanda è se i residui di modelli lineari generalizzati debbano essere normalmente distribuiti. La tua risposta sembra essere un "sì" non qualificato (sebbene le tue fonti indubbiamente diano le qualifiche necessarie, non tutti i lettori le controlleranno). Quindi fai un esempio in cui non vi è alcun motivo per aspettarsi che i residui vengano distribuiti normalmente, anche se il modello è stato correttamente specificato: un lettore inconsapevole supporrà che dovrebbero essere e che, come chiaramente non lo sono, questo è quindi un esempio di rilevazione di specifiche errate del modello esaminando i residui (anche se ...
Scortchi - Reinstalla Monica

2
... non ho detto che lo sia). Quindi penso che la risposta richieda molti chiarimenti per essere utile.
Scortchi - Ripristina Monica

2
I commenti di IMO @ Scortchi sono ragionevoli qui. Guardando quello che posso vedere del libro Montgomery sull'anteprima dei libri di Google , fanno la trama QQ, ma non eseguono un vero test di normalità come menzionato dal poster originale. Sicuramente realizzare il diagramma QQ è ragionevole come test diagnostico, ma in quasi tutte le circostanze realistiche anche la devianza risiede. non sarà normale.
Andy W,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.