Domande su come specificare modelli misti lineari in R per dati di misure ripetute con struttura di annidamento aggiuntiva


10

Struttura dati

> str(data)
 'data.frame':   6138 obs. of  10 variables:
 $ RT     : int  484 391 422 516 563 531 406 500 516 578 ...
 $ ASCORE : num  5.1 4 3.8 2.6 2.7 6.5 4.9 2.9 2.6 7.2 ...
 $ HSCORE : num  6 2.1 7.9 1 6.9 8.9 8.2 3.6 1.7 8.6 ...
 $ MVMNT  : Factor w/ 2 levels "_Withd","Appr": 2 2 1 1 2 1 2 1 1 2 ...
 $ STIM   : Factor w/ 123 levels " arti"," cele",..: 16 23 82 42 105 4 93 9 34 25 ...
 $ DRUG   : Factor w/ 2 levels "Inactive","Pharm": 1 1 1 1 1 1 1 1 1 1 ...
 $ FULLNSS: Factor w/ 2 levels "Fasted","Fed": 2 2 2 2 2 2 2 2 2 2 ...
 $ PATIENT: Factor w/ 25 levels "Subj01","Subj02",..: 1 1 1 1 1 1 1 1 1 1 ...
 $ SESSION: Factor w/ 4 levels "Sess1","Sess2",..: 1 1 1 1 1 1 1 1 1 1 ...
 $ TRIAL  : Factor w/ 6138 levels "T0001","T0002",..: 1 2 3 4 5 6 7 8 9 10 ...

Candidato modello completo

model.loaded.fit <- lmer(RT ~ ASCORE*HSCORE*MVMNT*DRUG*FULLNSS
                              + (1|PATIENT) + (1|SESSION), data, REML = TRUE)
  • I tempi di reazione degli studi sono raggruppati in sessioni, che a loro volta sono raggruppate in pazienti
  • Ogni studio può essere caratterizzato da due covariate continue di ASCORE e HSCORE (che vanno da 1 a 9) e da una risposta al movimento (ritiro o approccio)
  • Le sessioni sono caratterizzate dall'assunzione di farmaci (placebo o farmacone attivo) e dalla pienezza (a digiuno o pre-nutriti)

Modellazione e sintassi R?

Sto cercando di specificare un modello completo appropriato con una struttura media caricata che può essere utilizzata come punto di partenza in una strategia di selezione del modello top-down.

Questioni specifiche:

  • La sintassi specifica correttamente il clustering e gli effetti casuali?
  • Al di là della sintassi, questo modello è appropriato per il suddetto disegno all'interno del soggetto?
  • Il modello completo dovrebbe specificare tutte le interazioni di effetti fissi o solo quelli a cui sono veramente interessato?
  • Non ho incluso il fattore STIM nel modello, che caratterizza il tipo di stimolo specifico utilizzato in una sperimentazione, ma che non mi interessa stimare in alcun modo - dovrei specificare che come fattore casuale dato che ha 123 livelli e pochissimi punti dati per tipo di stimolo?

se non riesco a trovare un consiglio qui davvero non so chi potrei chiedere? forse conosci qualche forum dedicato ai modelli misti o anche un esperto disposto a consultare per un po 'di soldi?
Cel

3
Ciao @Cel, sembra che tu abbia TUTTE le interazioni nel modello, comprese le interazioni a 5, 4 e 3 vie. Non sono sicuro di questo caso, ma questo in genere si adatta eccessivamente ai dati, il che renderà i risultati meno generalizzabili. La selezione all'indietro (se è necessario utilizzarla) non deve iniziare con un modello completamente saturo: dovrebbe iniziare con il modello più grande che ritieni plausibile. Puoi ridurlo del tutto?
Macro

@Macro fantastico da sapere, includerò solo le interazioni che sembrano plausibili allora. hai suggerimenti riguardanti gli altri problemi? se lo fai, forse mettilo come una risposta in modo che io possa accettarlo.
Cel

Risposte:


16

Risponderò a ciascuna delle tue domande a turno.

La sintassi specifica correttamente il clustering e gli effetti casuali?

Il modello che si adatta qui è, in termini matematici, il modello

Yijk=Xijkβ+ηi+θij+εijk

dove

  • Yijk è il tempo di reazione per l'osservazione durante la sessione sull'individuo .kji

  • Xijk è il vettore predittore per l'osservazione durante la sessione sull'individuo (nel modello che hai scritto, comprende tutti gli effetti principali e tutte le interazioni).kji

  • ηi è la persona effetto casuale che induce correlazione tra le osservazioni fatte sulla stessa persona. è l'effetto casuale per i singoli 's sessione e è il termine di errore residuo.iθijijεijk

  • β è il vettore del coefficiente di regressione.

Come indicato a pagina 14-15 qui, questo modello è corretto per specificare che le sessioni sono nidificate all'interno di singoli individui, come nella descrizione.

Al di là della sintassi, questo modello è appropriato per il suddetto disegno all'interno del soggetto?

Penso che questo modello sia ragionevole, poiché rispetta la struttura di annidamento nei dati e penso che individuo e sessione siano ragionevolmente considerati effetti casuali, come afferma questo modello. È necessario esaminare le relazioni tra i predittori e la risposta con grafici a dispersione, ecc. Per assicurarsi che il predittore lineare ( ) sia correttamente specificato. Anche l'altra diagnostica standard di regressione dovrebbe essere esaminata.Xijkβ

Il modello completo dovrebbe specificare tutte le interazioni di effetti fissi o solo quelli a cui sono veramente interessato?

Penso che iniziare con un modello così fortemente saturo potrebbe non essere una grande idea, a meno che non abbia un senso sostanziale. Come ho detto in un commento, questo tenderà a sovrautilizzare il tuo particolare set di dati e potrebbe rendere i risultati meno generalizzabili. Per quanto riguarda la selezione del modello, se si inizia con il modello completamente saturo e si fa la selezione all'indietro (a cui alcune persone su questo sito, per una buona ragione, si oppongono ), è necessario assicurarsi di rispettare la gerarchia nel modello. Cioè, se si elimina un'interazione di livello inferiore dal modello, è necessario eliminare anche tutte le interazioni di livello superiore che coinvolgono quella variabile. Per ulteriori discussioni al riguardo, consultare il thread collegato.

Non ho incluso il fattore STIM nel modello, che caratterizza il tipo di stimolo specifico utilizzato in una sperimentazione, ma che non mi interessa stimare in alcun modo - dovrei specificare che come fattore casuale dato che ha 123 livelli e pochissimi punti dati per tipo di stimolo?

Certamente non sapere nulla sull'applicazione (quindi prendilo con un granello di sale), che suona come un effetto fisso, non un effetto casuale. Cioè, il tipo di trattamento suona come una variabile che corrisponderebbe a uno spostamento fisso nella risposta media, non qualcosa che indurrebbe una correlazione tra soggetti che avevano lo stesso tipo di stimolo. Ma il fatto che sia un fattore di livello 123 rende ingombrante entrare nel modello. Suppongo che vorrei sapere quanto grande effetto ti aspetteresti. Indipendentemente dalla dimensione dell'effetto, non indurrà una distorsione nelle stime della pendenza poiché si tratta di un modello lineare, ma tralasciarlo potrebbe rendere gli errori standard più grandi di quanto sarebbero altrimenti.


2
Wow. grazie Macro, vorrei poter dare più punti.
Cel

Poiché gli effetti casuali sono incrociati anziché casuali, la notazione dovrebbe essere e (anziché ), poiché poiché è incrociata (e non nidificata) con il paziente? ηiθjθj
Joshua Rosenberg,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.