Differenza tra modelli lineari generalizzati e modelli misti lineari generalizzati


34

Mi chiedo quali siano le differenze tra GLM misti e non miscelati. Ad esempio, in SPSS il menu a discesa consente agli utenti di adattare:

  • analyze-> generalized linear models-> generalized linear models &
  • analyze-> mixed models-> generalized linear

Trattano diversamente i valori mancanti?

La mia variabile dipendente è binaria e ho diverse variabili indipendenti categoriche e continue.


Risposte:


62

L'avvento di modelli lineari generalizzati ci ha permesso di costruire modelli di dati di tipo regressione quando la distribuzione della variabile di risposta non è normale, ad esempio quando il tuo DV è binario. (Se volete sapere qualcosa di più su Glims, ho scritto un abbastanza ampia risposta qui , che può essere utile anche se differisce contesto.) Tuttavia, un Glim, ad esempio, un modello di regressione logistica, presuppone che i dati siano indipendenti . Ad esempio, immagina uno studio che indichi se un bambino ha sviluppato l'asma. Ogni bambino contribuisce unoi dati indicano lo studio: o hanno l'asma o no. A volte i dati non sono indipendenti, però. Prendi in considerazione un altro studio che esamina se un bambino ha il raffreddore in vari punti durante l'anno scolastico. In questo caso, ogni bambino fornisce molti punti dati. Un tempo un bambino potrebbe avere un raffreddore, in seguito potrebbero non esserlo e ancora più tardi potrebbero avere un altro raffreddore. Questi dati non sono indipendenti perché provengono dallo stesso figlio. Per analizzare adeguatamente questi dati, dobbiamo in qualche modo tenere conto di questa non indipendenza. Ci sono due modi: un modo è usare le equazioni di stima generalizzate (che non menzionate, quindi salteremo). L'altro modo è usare un modello misto lineare generalizzato. I GLiMM possono spiegare la non indipendenza aggiungendo effetti casuali (come nota @MichaelChernick). Pertanto, la risposta è che la seconda opzione è per i dati di misure ripetute non normali (o comunque non indipendenti). (Dovrei menzionare, in linea con il commento di @ Macro, che i modelli misti lineari generalizzati includono modelli lineari come un caso speciale e quindi possono essere usati con dati normalmente distribuiti. Tuttavia, nell'uso tipico il termine connota dati non normali.)

Aggiornamento: (L'OP ha anche chiesto di GEE, quindi scriverò un po 'su come tutti e tre si relazionano tra loro.)

Ecco una panoramica di base:

  • un tipico GLiM (userò la regressione logistica come caso prototipico) ti consente di modellare una risposta binaria indipendente in funzione delle covariate
  • un GLMM consente di modellare una risposta binaria non indipendente (o raggruppata) in base agli attributi di ciascun singolo cluster in funzione delle covariate
  • GEE consente di modellare la risposta media della popolazione di dati binari non indipendenti in funzione delle covariate

Poiché hai più prove per partecipante, i tuoi dati non sono indipendenti; come noterai correttamente, "i [t] rialzi all'interno di un partecipante sono probabilmente più simili rispetto a quelli dell'intero gruppo". Pertanto, è necessario utilizzare un GLMM o GEE.

Il problema, quindi, è come scegliere se GLMM o GEE sarebbero più appropriati per la tua situazione. La risposta a questa domanda dipende dall'argomento della tua ricerca, in particolare l'obiettivo delle inferenze che speri di fare. Come ho detto sopra, con un GLMM, i beta ti stanno raccontando l'effetto di un cambiamento di un'unità nelle tue covariate su un particolare partecipante, date le loro caratteristiche individuali. D'altra parte con il GEE, i beta ti stanno raccontando l'effetto di un cambiamento di un'unità nelle tue covariate sulla media delle risposte dell'intera popolazione in questione. Questa è una distinzione difficile da comprendere, soprattutto perché non esiste una tale distinzione con i modelli lineari (nel qual caso i due sono la stessa cosa).

Un modo per provare a avvolgere la testa è quello di immaginare la media della popolazione su entrambi i lati del segno di uguale nel modello. Ad esempio, questo potrebbe essere un modello: dove: Esiste un parametro che regola la distribuzione della risposta ( , la probabilità, con dati binari) sul lato sinistro per ciascun partecipante. Sul lato destro, ci sono coefficienti per l'effetto della covariata [s] e il livello di base quando la covariata [s] è uguale a 0. La prima cosa da notare è che l'intercettazione effettiva per un individuo specifico non è , ma piuttosto logit ( p ) = ln ( p

logit(pi)=β0+β1X1+bi
pβ0(β0+bi)biβ0β1pilogitβ1
logit(p)=ln(p1p),     &      bN(0,σb2)
p β0(β0+bi) . Ma allora? Se stiamo assumendo che i (l'effetto casuale) siano normalmente distribuiti con una media di 0 (come abbiamo fatto), sicuramente possiamo fare una media su questi senza difficoltà (sarebbe solo ). Inoltre, in questo caso non abbiamo un effetto casuale corrispondente per le piste e quindi la loro media è solo . Quindi la media delle intercettazioni più la media delle pendenze deve essere uguale alla trasformazione logit della media delle a sinistra, non è vero? Sfortunatamente no . Il problema è che tra questi due c'è il , che è un non linearebiβ0β1pilogittrasformazione. (Se la trasformazione fosse lineare, sarebbero equivalenti, motivo per cui questo problema non si verifica per i modelli lineari.) Il seguente diagramma lo chiarisce: inserisci qui la descrizione dell'immagine
Immagina che questo diagramma rappresenti il ​​processo di generazione dei dati sottostante per la probabilità che una piccola classe degli studenti sarà in grado di superare un test su un determinato argomento con un determinato numero di ore di insegnamento su tale argomento. Ciascuna delle curve grigie rappresenta la probabilità di superare il test con quantità variabili di istruzione per uno degli studenti. La curva in grassetto è la media dell'intera classe. In questo caso, l'effetto di un'ora aggiuntiva di insegnamento in base agli attributi dello studente èβ1- lo stesso per ogni studente (ovvero, non esiste una pendenza casuale). Si noti, tuttavia, che l'abilità di base degli studenti differisce tra loro, probabilmente a causa di differenze in cose come il QI (ovvero, c'è un'intercettazione casuale). La probabilità media per la classe nel suo insieme, tuttavia, segue un profilo diverso rispetto agli studenti. Il risultato sorprendentemente controintuitivo è questo: un'ora di istruzione aggiuntiva può avere un effetto considerevole sulla probabilità che ogni studente superi il test, ma ha un effetto relativamente scarso sulla probabile percentuale totale di studenti che superano . Questo perché alcuni studenti potrebbero già aver avuto una grande possibilità di passare, mentre altri potrebbero avere ancora poche possibilità.

La domanda se si dovrebbe usare un GLMM o il GEE è la domanda su quale di queste funzioni si desidera stimare. Se si voleva conoscere la probabilità di un dato che passa studente (se, per esempio, è stato lo studente, o il genitore dello studente), che si desidera utilizzare un GLMM. D'altra parte, se si desidera conoscere l'effetto sulla popolazione (se, ad esempio, si fosse l' insegnante o il preside), si desidera utilizzare il GEE.

Per un'altra discussione più dettagliata dal punto di vista matematico di questo materiale, vedi questa risposta di @Macro.


2
Questa è una buona risposta, ma penso che, specialmente l'ultima frase, sembra quasi indicare che usi GLM o GLMM solo per dati non normali che probabilmente non erano previsti, dal momento che anche i normali modelli lineari (misti) gaussiani cadono sotto la categoria GL (M) M.
Macro,

@Macro, hai ragione, me lo dimentico sempre. Ho modificato la risposta per chiarire questo. Fammi sapere se pensi che abbia bisogno di più.
gung - Ripristina Monica

Ho anche verificato equazioni di stima generalizzate. È corretto che, come con GLiM, GEE presuma che i miei dati siano indipendenti? Ho più prove per partecipante. Le prove all'interno di un partecipante sono probabilmente più simili rispetto a quelle dell'intero gruppo.
user9203,

@gung, Sebbene GEE sia in grado di produrre coefficienti "mediata dalla popolazione", se volessi stimare l' effetto medio del trattamento (ATE) sulla scala di probabilità nella popolazione reale, per un regressore binario di interesse, non avrei bisogno di prendere un approccio specifico per argomento? Il modo per calcolare l'ATE, per quanto ne so, è stimare la probabilità prevista per ogni persona con e senza trattamento e quindi fare una media di tali differenze. Ciò non richiede un metodo di regressione in grado di generare probabilità previste per ogni persona (nonostante il fatto che vengano poi calcolate in media)?
Yakkanomica,

1
@Yakkanomica, se è quello che vuoi, certo.
gung - Ripristina Monica

6

La chiave è l'introduzione di effetti casuali. Il link di Gung lo menziona. Ma penso che avrebbe dovuto essere menzionato direttamente. Questa è la differenza principale.


+1, hai ragione. Avrei dovuto essere più chiaro al riguardo. Ho modificato la mia risposta per includere questo punto.
gung - Ripristina Monica

Ogni volta che aggiungo un effetto casuale, come un'intercettazione casuale al modello, ricevo un messaggio di errore. Penso di non avere abbastanza punti dati per aggiungere effetti casuali. Potrebbe essere così? messaggio di errore: glmm: la matrice finale dell'Assia non è definita positiva sebbene tutti i criteri di convergenza siano soddisfatti. La procedura continua nonostante questo avvertimento. I risultati successivi prodotti si basano sull'ultima iterazione. La validità dell'adattamento del modello è incerta.
user9203,

3

Ti suggerisco di esaminare anche le risposte a una domanda che ho posto qualche tempo fa:

Modello lineare generale vs. modello lineare generalizzato (con una funzione di collegamento identità?)


5
Non credo che risponda davvero alla domanda, che riguarda le capacità SPSS per eseguire modelli GLM e ad effetti misti e come gestisce i valori mancanti. Questo doveva essere invece un commento? Altrimenti, chiarisci.
chl

Siamo spiacenti, il post di apertura sembrava avere due "domande". 1. Mi chiedo cosa .... e 2. Trattano diversamente i valori mancanti? Stavo cercando di aiutare con la prima domanda.
Behacad,

1
Giusto. Senza ulteriori spiegazioni, penso ancora che ciò si adatterebbe meglio come commento all'OP.
cl
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.