Qual è la differenza tra GLM e GEE?


9

Qual è la differenza tra un modello GLM (regressione logistica) con una variabile di risposta binaria che include soggetto e tempo come covariate e l'analogo modello GEE che tiene conto della correlazione tra le misurazioni in più punti temporali?

Il mio GLM è simile a:

Y(binary) ~ A + B1X1(subject id) + B2X2(time) 
              + B3X3(interesting continuous covariate)

con la funzione di collegamento logit.

Sto cercando una spiegazione semplice (rivolta allo scienziato sociale) di come e perché il tempo è trattato in modo diverso nei due modelli e quali sarebbero le implicazioni per l'interpretazione.


6
Ho trovato quelle risposte alle domande relative ( Qual è la differenza tra equazioni di stima generalizzate e GLMM? , Quando usare equazioni di stima generalizzate al confronto con modelli effetti misti? ) Molto completo, anche se sono circa GLM con effetti casuali vs. GEE.
chl

1
Vuoi davvero inserire l'id del soggetto come una covariata continua? Sembra strano che la variabile response sia una funzione crescente o decrescente di id.
ospite

Effetti medi della popolazione contro effetti specifici del soggetto.
Will

ecco un link ad un articolo che discute le differenze tra i due. aje.oxfordjournals.org/content/147/7/694.full.pdf+html
Will

1
Oltre alle domande sopra link @chl, questa domanda discute anche queste idee: Differenza tra modelli lineari generalizzati e modelli misti lineari generalizzati in SPSS .
gung - Ripristina Monica

Risposte:


12

Potrebbe esserci una risposta migliore e più dettagliata là fuori, ma posso darti alcuni pensieri semplici e rapidi. Sembra che tu stia parlando dell'utilizzo di un modello lineare generalizzato (ad esempio, una regressione logistica tipica) per adattarsi ai dati raccolti da alcuni soggetti in più punti temporali. A prima vista, vedo due evidenti problemi con questo approccio.

Innanzitutto, questo modello presuppone che i tuoi dati siano indipendenti dati le covariate (ovvero, dopo aver contabilizzato un codice fittizio per ogni soggetto, simile a un termine di intercettazione individuale e una tendenza temporale lineare che è uguale per tutti). È improbabile che ciò sia vero. Invece, ci saranno quasi certamente autocorrelazioni, ad esempio due osservazioni dello stesso individuo più vicine nel tempo saranno più simili di due osservazioni più distanti nel tempo, anche dopo aver tenuto conto del tempo . (Anche se potrebbero anche essere indipendenti se includessi anche subject ID x timeun'interazione - ovvero una tendenza temporale unica per tutti - ma questo aggraverebbe il problema successivo.)

In secondo luogo, brucerai un numero enorme di gradi di libertà stimando un parametro per ciascun partecipante. È probabile che ti restino relativamente pochi gradi di libertà con cui provare a stimare con precisione i tuoi parametri di interesse (ovviamente, questo dipende da quante misurazioni hai per persona).

Ironia della sorte, il primo problema significa che i tuoi intervalli di confidenza sono troppo stretti, mentre il secondo significa che i tuoi EC saranno molto più ampi di quanto sarebbero stati se non avessi sprecato la maggior parte dei tuoi gradi di libertà. Tuttavia, non vorrei contare su questi due che si bilanciano a vicenda. Per quello che vale, credo che le stime dei tuoi parametri siano imparziali (anche se qui potrei sbagliarmi).

L'uso delle equazioni di stima generalizzate è appropriato in questo caso. Quando si adatta un modello utilizzando GEE, si specifica una struttura correlazionale (come AR (1)) e può essere abbastanza ragionevole che i dati siano condizionati indipendentemente sia dalle covariate sia dalla matrice di correlazione specificata. Inoltre, il GEE stima l'associazione media della popolazione, quindi non è necessario bruciare un certo grado di libertà per ciascun partecipante - in sostanza si sta facendo una media su di essi.

Per quanto riguarda l'interpretazione, per quanto ne so, sarebbe la stessa in entrambi i casi: dato che gli altri fattori rimangono costanti, una variazione di una unità in X3 è associata a una variazione B3 delle probabilità di "successo" nel registro .

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.