Ipotesi di modelli lineari generalizzati


9

A pagina 232 di "Un compagno R per la regressione applicata", nota di Fox e Weisberg

Solo la famiglia gaussiana ha una varianza costante e in tutti gli altri GLM la varianza condizionale di y at dipende daXμ(X)

In precedenza, hanno notato che la varianza condizionale del Poisson è e quella del binomio è .μμ(1-μ)N

Per il gaussiano, questo è un presupposto familiare e spesso controllato (omoscedasticità). Allo stesso modo, vedo spesso la varianza condizionale del Poisson discussa come un'ipotesi di regressione di Poisson, insieme ai rimedi per i casi in cui è violata (ad esempio binomio negativo, zero gonfiato, ecc.). Eppure non vedo mai la varianza condizionale per il binomio discusso come un presupposto nella regressione logistica. Un piccolo googling non ne ha trovato menzione.

Cosa mi sto perdendo qui?

MODIFICA successiva al commento di @whuber:

Come suggerito, sto guardando attraverso Hosmer e Lemeshow. È interessante e penso che mostri perché io (e forse altri) siamo confusi. Ad esempio, la parola "presupposto" non è nell'indice del libro. Inoltre, abbiamo questo (p. 175)

Nella regressione logistica dobbiamo fare affidamento principalmente sulla valutazione visiva, poiché la distribuzione della diagnostica secondo l'ipotesi che il modello si adatti sia nota solo in determinate impostazioni limitate

Mostrano alcuni grafici, ma si concentrano su grafici a dispersione di vari residui rispetto alla probabilità stimata. Queste trame (anche per un buon modello, non hanno il modello "blobby" caratteristico di trame simili nella regressione OLS, e quindi sono più difficili da giudicare. Inoltre, non mostrano nulla di simile alle trame quantili.

In R, plot.lm offre un bel set predefinito di grafici per valutare i modelli; Non conosco un equivalente per la regressione logistica, sebbene possa essere in alcuni pacchetti. Ciò può essere dovuto al fatto che trame diverse sarebbero necessarie per ciascun tipo di modello. SAS offre alcuni grafici in PROC LOGISTIC.

Questa sembra certamente essere un'area di potenziale confusione!


3
Se hai una copia di Hosmer & Lemeshow, Regressione logistica applicata, dai un'occhiata al capitolo "Valutare l'adattamento del modello": la varianza condizionale del Binomiale si presenta ovunque ed è esplicitamente spiegata in quasi tutti i test GoF.
whuber

1
Penso che il presupposto binomiale sia imposto dal vero esperimento: le risposte sono indipendenti 0/1, quindi la distribuzione binomiale è l'unica che modella il vero esperimento. Al contrario, l'ipotesi della distribuzione di Poisson per i conteggi non è realistica.
Stéphane Laurent,

1
Grazie @whuber. Ho quel libro e lo verificherò
Peter Flom

... ma la funzione di collegamento non è naturale e determina la varianza condizionale ... quindi il mio commento sopra non era molto sensato
Stéphane Laurent

Risposte:


3

Queste trame (anche per un buon modello, non hanno il modello "blobby" caratteristico di trame simili nella regressione OLS, e quindi sono più difficili da giudicare. Inoltre, non mostrano nulla di simile alle trame quantili.

Il pacchetto DHARMa R risolve questo problema simulando dal modello montato per trasformare i residui di qualsiasi GL (M) M in uno spazio standardizzato. Una volta fatto ciò, è possibile applicare tutti i metodi regolari per la valutazione visiva e formale dei problemi residui (ad esempio grafici qq, sovradispersione, eteroschedasticità, autocorrelazione). Vedere la vignetta del pacchetto per esempi elaborati.

Per quanto riguarda il commento di @Otto_K: se l'unico problema è l'overdispersione omogenea, è probabilmente più semplice utilizzare un effetto casuale a livello di osservazione, che può essere implementato con un GLMM binomiale standard. Tuttavia, penso che @PeterFlom fosse preoccupato anche per l'eteroschedasticità, vale a dire una modifica del parametro di dispersione con alcune previsioni predittive o modello. Questo non verrà raccolto / corretto dai controlli / correzioni di sovradispersione standard, ma è possibile vederlo nei grafici residui di DHARMa. Per correggerlo, modellare la dispersione in funzione di qualcos'altro in JAGS o STAN è probabilmente l'unico modo al momento.


1

L'argomento che spieghi viene spesso chiamato overdispersion . Nel mio lavoro ho visto una possibile soluzione a tale argomento:

Utilizzando un approccio bayesiano e stimando una distribuzione beta-binomiale. Questo ha il grande vantaggio di altre distribuzioni (indotte da altri priori), di avere una soluzione a forma chiusa.

Riferimenti:

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.