L'avvento di modelli lineari generalizzati ci ha permesso di costruire modelli di dati di tipo regressione quando la distribuzione della variabile di risposta non è normale, ad esempio quando il tuo DV è binario. (Se volete sapere qualcosa di più su Glims, ho scritto un abbastanza ampia risposta qui , che può essere utile anche se differisce contesto.) Tuttavia, un Glim, ad esempio, un modello di regressione logistica, presuppone che i dati siano indipendenti . Ad esempio, immagina uno studio che indichi se un bambino ha sviluppato l'asma. Ogni bambino contribuisce unoi dati indicano lo studio: o hanno l'asma o no. A volte i dati non sono indipendenti, però. Prendi in considerazione un altro studio che esamina se un bambino ha il raffreddore in vari punti durante l'anno scolastico. In questo caso, ogni bambino fornisce molti punti dati. Un tempo un bambino potrebbe avere un raffreddore, in seguito potrebbero non esserlo e ancora più tardi potrebbero avere un altro raffreddore. Questi dati non sono indipendenti perché provengono dallo stesso figlio. Per analizzare adeguatamente questi dati, dobbiamo in qualche modo tenere conto di questa non indipendenza. Ci sono due modi: un modo è usare le equazioni di stima generalizzate (che non menzionate, quindi salteremo). L'altro modo è usare un modello misto lineare generalizzato. I GLiMM possono spiegare la non indipendenza aggiungendo effetti casuali (come nota @MichaelChernick). Pertanto, la risposta è che la seconda opzione è per i dati di misure ripetute non normali (o comunque non indipendenti). (Dovrei menzionare, in linea con il commento di @ Macro, che i modelli misti lineari generalizzati includono modelli lineari come un caso speciale e quindi possono essere usati con dati normalmente distribuiti. Tuttavia, nell'uso tipico il termine connota dati non normali.)
Aggiornamento: (L'OP ha anche chiesto di GEE, quindi scriverò un po 'su come tutti e tre si relazionano tra loro.)
Ecco una panoramica di base:
- un tipico GLiM (userò la regressione logistica come caso prototipico) ti consente di modellare una risposta binaria indipendente in funzione delle covariate
- un GLMM consente di modellare una risposta binaria non indipendente (o raggruppata) in base agli attributi di ciascun singolo cluster in funzione delle covariate
- GEE consente di modellare la risposta media della popolazione di dati binari non indipendenti in funzione delle covariate
Poiché hai più prove per partecipante, i tuoi dati non sono indipendenti; come noterai correttamente, "i [t] rialzi all'interno di un partecipante sono probabilmente più simili rispetto a quelli dell'intero gruppo". Pertanto, è necessario utilizzare un GLMM o GEE.
Il problema, quindi, è come scegliere se GLMM o GEE sarebbero più appropriati per la tua situazione. La risposta a questa domanda dipende dall'argomento della tua ricerca, in particolare l'obiettivo delle inferenze che speri di fare. Come ho detto sopra, con un GLMM, i beta ti stanno raccontando l'effetto di un cambiamento di un'unità nelle tue covariate su un particolare partecipante, date le loro caratteristiche individuali. D'altra parte con il GEE, i beta ti stanno raccontando l'effetto di un cambiamento di un'unità nelle tue covariate sulla media delle risposte dell'intera popolazione in questione. Questa è una distinzione difficile da comprendere, soprattutto perché non esiste una tale distinzione con i modelli lineari (nel qual caso i due sono la stessa cosa).
Un modo per provare a avvolgere la testa è quello di immaginare la media della popolazione su entrambi i lati del segno di uguale nel modello. Ad esempio, questo potrebbe essere un modello:
dove:
Esiste un parametro che regola la distribuzione della risposta ( , la probabilità, con dati binari) sul lato sinistro per ciascun partecipante. Sul lato destro, ci sono coefficienti per l'effetto della covariata [s] e il livello di base quando la covariata [s] è uguale a 0. La prima cosa da notare è che l'intercettazione effettiva per un individuo specifico non è , ma piuttosto logit ( p ) = ln ( p
logit(pi)=β0+β1X1+bi
pβ0(β0+bi)biβ0β1pilogitβ1logit(p)=ln(p1−p), & b∼N(0,σ2b)
p β0(β0+bi) . Ma allora? Se stiamo assumendo che i (l'effetto casuale) siano normalmente distribuiti con una media di 0 (come abbiamo fatto), sicuramente possiamo fare una media su questi senza difficoltà (sarebbe solo ). Inoltre, in questo caso non abbiamo un effetto casuale corrispondente per le piste e quindi la loro media è solo . Quindi la media delle intercettazioni più la media delle pendenze deve essere uguale alla trasformazione logit della media delle a sinistra, non è vero? Sfortunatamente
no . Il problema è che tra questi due c'è il , che è un
non linearebiβ0β1pilogittrasformazione. (Se la trasformazione fosse lineare, sarebbero equivalenti, motivo per cui questo problema non si verifica per i modelli lineari.) Il seguente diagramma lo chiarisce:
Immagina che questo diagramma rappresenti il processo di generazione dei dati sottostante per la probabilità che una piccola classe degli studenti sarà in grado di superare un test su un determinato argomento con un determinato numero di ore di insegnamento su tale argomento. Ciascuna delle curve grigie rappresenta la probabilità di superare il test con quantità variabili di istruzione per uno degli studenti. La curva in grassetto è la media dell'intera classe. In questo caso, l'effetto di un'ora aggiuntiva di insegnamento in
base agli attributi dello studente è
β1- lo stesso per ogni studente (ovvero, non esiste una pendenza casuale). Si noti, tuttavia, che l'abilità di base degli studenti differisce tra loro, probabilmente a causa di differenze in cose come il QI (ovvero, c'è un'intercettazione casuale). La probabilità media per la classe nel suo insieme, tuttavia, segue un profilo diverso rispetto agli studenti. Il risultato sorprendentemente controintuitivo è questo:
un'ora di istruzione aggiuntiva può avere un effetto considerevole sulla probabilità che ogni studente superi il test, ma ha un effetto relativamente scarso sulla probabile percentuale totale di studenti che superano . Questo perché alcuni studenti potrebbero già aver avuto una grande possibilità di passare, mentre altri potrebbero avere ancora poche possibilità.
La domanda se si dovrebbe usare un GLMM o il GEE è la domanda su quale di queste funzioni si desidera stimare. Se si voleva conoscere la probabilità di un dato che passa studente (se, per esempio, è stato lo studente, o il genitore dello studente), che si desidera utilizzare un GLMM. D'altra parte, se si desidera conoscere l'effetto sulla popolazione (se, ad esempio, si fosse l' insegnante o il preside), si desidera utilizzare il GEE.
Per un'altra discussione più dettagliata dal punto di vista matematico di questo materiale, vedi questa risposta di @Macro.