Modellazione lineare ad effetti misti con dati di studio gemellati


14

Supponiamo di avere una certa certa variabile di risposta yij che è stato misurato da j esima sibling i esima famiglia. Inoltre, alcuni dati comportamentali xij sono stati raccolti contemporaneamente da ciascun soggetto. Sto cercando di analizzare la situazione con il seguente modello lineare a effetti misti:

yij=α0+α1xij+δ1ixij+εij

dove α0 e α1 sono rispettivamente l'intercetta fissa e la pendenza, δ1i è la pendenza casuale e εij è il residuo.

I presupposti per gli effetti casuali δ1i e residui εij sono (supponendo che ci siano solo due fratelli all'interno di ogni famiglia)

δ1idN(0,τ2)(εi1,εi2)TdN((0,0)T,R)

dove è un parametro di varianza sconosciuto e la struttura varianza-covarianza R è una matrice simmetrica 2 x 2 della formaτ2R

(r12r122r122r22)

che modella la correlazione tra i due fratelli.

  1. È questo un modello appropriato per uno studio simile?

  2. I dati sono un po 'complicati. Tra le 50 famiglie, circa il 90% di esse sono gemelle dizigotiche (DZ). Per le altre famiglie,

    1. due hanno un solo fratello;
    2. due hanno una coppia DZ più un fratello; e
    3. due hanno una coppia DZ più due fratelli supplementari.


    Credo che lmeil pacchetto R nlmepossa facilmente gestire (1) con situazioni mancanti o sbilanciate. Il mio problema è, come gestire (2) e (3)? Una possibilità che mi viene in mente è quella di dividere ciascuna di quelle quattro famiglie in (2) e (3) in due in modo che ogni sottofamiglia abbia uno o due fratelli in modo che il modello sopra possa ancora essere applicato. Va bene? Un'altra opzione sarebbe quella di eliminare semplicemente i dati da uno o due fratelli in più in (2) e (3), che sembra essere uno spreco. Qualche approccio migliore?

  3. Sembra che ciò lmepermetta di fissare i valori nella matrice di varianza-covarianza residua R , ad esempio r 2 12 = 0,5. Ha senso imporre la struttura di correlazione o devo semplicemente stimarla sulla base dei dati?rRr122


1
Cosa indica ? xj
Macro,

@Macro: grazie per averlo individuato. Ho appena modificato l'OP per indicare che è una variabile esplicativa, misura comportamentale di ciascun fratello. xij
bluepole,

1
Domanda e applicazione molto interessanti. Potrei mancare qualcosa, ma mi sembra che questo modello sia troppo parametrizzato. Gli errori correlati possono essere effettivamente fattorizzati in un componente "non condiviso" e un componente "condiviso", quest'ultimo dei quali ha la stessa funzione di δ 0 i . Dovrai eliminare δ 0 i , commettere gli errori iid di ϵ o imporre vincoli come r 2 12 = .5 per l'identificazione - lo stai facendo apposta per disaccoppiare i componenti ambientali / genetici con la correlazione tra fratelli?ϵi1,ϵi2δ0iδ0iϵr122=.5
Macro,

@Macro: Hai ragione: non è necessaria nel modello. Grazie per averlo segnalato! Stranamente non si lamenta di tale ridondanza. δ0ilme
bluepole,

Stai ancora lavorando con questo modello iperparametrizzato (quella parte della tua domanda non è stata modificata)?
Macro,

Risposte:


10

È possibile includere gemelli e non gemelli in un modello unificato utilizzando una variabile fittizia e includendo pendenze casuali in quella variabile fittizia. Poiché tutte le famiglie hanno al massimo un set di gemelli, questo sarà relativamente semplice:

Sia se fratello j nella famiglia i è un gemello e 0 altrimenti. Suppongo che anche tu desideri che la pendenza casuale differisca per i gemelli rispetto ai fratelli normali - in caso contrario, non includere il termine η i 3 nel modello seguente.Aij=1jiηi3

Quindi montare il modello:

yij=α0+α1xij+ηi0+ηi1Aij+ηi2xij+ηi3xijAij+εij
  • hanno un effetto fisso, come nella tua specificaα0,α1

  • è l'effetto casuale di base 'fratello' e η i 1 è l'effetto casuale aggiuntivo che consente ai gemelli di essere più simili dei fratelli normali. Le dimensioni delle corrispondenti varianze di effetti casuali quantificano quanto sono simili i fratelli e quanto più gemelli simili siano dei fratelli normali. Si noti che entrambe le correlazioni gemelle e non gemelle sono caratterizzate da questo modello: le correlazioni gemelle sono calcolate sommando opportunamente gli effetti casuali (collegare A i j = 1 ).ηi0ηi1Aij=1

  • e η i 3 hanno ruoli analoghi, solo che agiscono come pendenze casuali di x i jηi2ηi3xij

  • εij

È possibile adattare il modello utilizzando il Rpacchetto lme4. Nel codice sottostante la variabile dipendente è y, la variabile fittizia è A, il predittore è x, il prodotto della variabile fittizia e il predittore è Axed famIDè il numero identificativo della famiglia. Si presume che i tuoi dati siano archiviati in un frame di dati D, con queste variabili come colonne.

library(lme4) 
g <- lmer(y ~ x + (1+A+x+Ax|famID), data=D) 

Le variabili degli effetti casuali e le stime degli effetti fissi possono essere visualizzate digitando summary(g). Si noti che questo modello consente agli effetti casuali di essere liberamente correlati tra loro.

In many cases, it may make more sense (or be more easily interpretable) to assume independence between the random effects (e.g. this assumption is often made to decompose genetic vs. environmental familial correlation), in which case you'd instead type

g <- lmer(y ~ x + (1|famID) + (A-1|famID) + (x-1|famID) +(Ax-1|famID), data=D) 

This is really a nice solution, and I like it! Will try it out soon, and see it goes... Thanks a lot!
bluepole

You're welcome. If you've found this solution helpful please consider accepting the answer :)
Macro

Two issues: 1) Since most subjects are dizygotic twins, your approach seems not modeling the correlation between a DZ twin pair. 2) Only 4 families have extra siblings. I'm worried it would be hard to estimate the random effects for the siblings based on only those 4 families. Because the difference between a DZ twin pair and another sibling is relatively small (mainly environmental, not genetic), maybe I can simply ignore the subtle difference of twin vs. sibling, and treat those few siblings as twins with random effects as in your model or with correlated residuals as in my OP.
bluepole

This approach does model the correlation between twins. For example, if their predictor values are 0, then the correlation between twins is
σ02+σ12σ02+σ12+σε2
where σ02,σ12 are the variances of ηi0,ηi1, respectively and σε2 is the variance of the error term. When the predictor values are not 0, this expression will also involve the variances of the other two random effects.
Macro

You're right that, since there are few non-twins, the variances of ηi0 and ηi2 are going to be difficult to estimate. You can leave them out, but you don't lose anything by using the model I've suggested but possibly computational brevity. If you do, you're effectively assuming that non-twin siblings are independent. But you can still be using those observations to estimate the mean parameters (i.e. don't leave them out of the model fitting). Or, as you said, you can just act as though regular siblings are the same as twins, and you wouldn't need to dummy coding at all.
Macro
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.