Quando * non * dovrei consentire a un effetto fisso di variare tra i livelli di un effetto casuale in un modello di effetti misti?


16

Data una variabile prevista (P), un effetto casuale (R) e un effetto fisso (F), si potrebbero adattare due * modelli di effetti misti ( sintassi lme4 ):

m1 = lmer( P ~ (1|R) + F )
m2 = lmer( P ~ (1+F|R) + F)

A quanto ho capito, il secondo modello è quello che consente all'effetto fisso di variare tra i livelli dell'effetto casuale.

Nella mia ricerca in genere utilizzo modelli di effetti misti per analizzare i dati di esperimenti condotti su più partecipanti umani. Modello il partecipante come effetto casuale e manipolazioni sperimentali come effetti fissi. Penso che abbia senso a priori lasciare che il grado in cui gli effetti fissi influenzano le prestazioni nell'esperimento vari tra i partecipanti. Tuttavia, ho difficoltà a immaginare circostanze in cui non dovrei né permettere agli effetti fissi di variare tra i livelli di un effetto casuale, quindi la mia domanda è:

Quando non si dovrebbe permettere a un effetto fisso di variare tra i livelli di un effetto casuale?


Continuo a non comprendere appieno la sintassi di lme4, quindi sono curioso di vedere la risposta. Ma ho la sensazione che sia correlata alla seguente differenza: P è la quantità di tempo che uno studente trascorre a fare i compiti, R è un trattamento a livello di classe e F è lo studente. (Dovremmo anche avere un effetto casuale per la classe stessa.) Se tutti gli studenti sono soggetti a tutti i trattamenti R in momenti diversi, i livelli di F sono comparabili tra le classi. Se misuriamo un'intera scuola tutta in una volta, abbiamo studenti diversi in ogni classe, quindi i livelli di F in classi diverse non hanno nulla a che fare l'uno con l'altro.
Thomas Levine,

Risposte:


11

Non sono un esperto di modellistica a effetti misti, ma alla domanda è molto più semplice rispondere se riformulata nel contesto della modellizzazione della regressione gerarchica. Quindi le nostre osservazioni hanno due indici e F i j con indice i che rappresentano i membri della classe e j della classe. I modelli gerarchici ci consentono di adattare la regressione lineare, in cui i coefficienti variano tra le classi:PijFijij

Yij=β0i+β1iFij

Questa è la nostra regressione di primo livello. La regressione di secondo livello viene eseguita sui primi coefficienti di regressione:

β0i=γ00+u0iβ1i=γ01+u1io

quando lo sostituiamo nella regressione di primo livello otteniamo

Yij=(γ0+u0i)+(γ01+u1i)Fij=γ0+u0i+u1iFij+γ01Fij

γuγu

Il modello che ho scritto corrisponde alla lmersintassi

P ~ (1+F|R) + F

β1i=γ01

Yij=γ0+u0i+γ01Fij

che corrisponde alla lmersintassi

P ~ (1|R) + F

Quindi la domanda ora diventa quando possiamo escludere il termine di errore dalla regressione di secondo livello? La risposta canonica è che quando siamo sicuri che i regressori (qui non ne abbiamo, ma possiamo includerli, sono naturalmente costanti all'interno delle classi) nella regressione di secondo livello spiegano completamente la varianza dei coefficienti tra le classi.

Fiju1i

Nota . Ho dato solo una spiegazione algebrica, ma penso che averlo in mente sia molto più facile pensare a un particolare esempio applicato.


Yij=β0i+β1iFij+eij

sì, ma l'ho omesso per chiarezza, penso.
mpiktas,

10

Puoi pensare a un "effetto fisso" come a un "effetto casuale" con una componente di varianza pari a zero.

Quindi, una semplice risposta al motivo per cui non si dovrebbe far variare l'effetto fisso, è una prova insufficiente per una componente di varianza "abbastanza grande". Le prove dovrebbero provenire sia dalle informazioni precedenti che dai dati. Ciò è in linea con il principio base del "rasoio occam": non rendere il tuo modello più complesso di quanto debba essere.

Tendo a pensare a modelli misti lineari nel modo seguente, scrivo una regressione multipla come segue:

Y=Xβ+Zu+e

XβZueuN(0,D(θ))θeN(0,σ2I)(Zu+e)N(0,ZD(θ)ZT+σ2I)

YN(Xβ,ZD(θ)ZT+σ2I)

Z=0

Y~N(Xβ,σ2io)

Quindi la parte "casuale" del modello può essere vista come un modo per specificare informazioni precedenti sulla struttura di correlazione del rumore o della componente di errore nel modello. OLS fondamentalmente presuppone che un singolo errore dalla parte fissa del modello in un caso sia inutile per prevedere qualsiasi altro errore, anche se conosciamo la parte fissa del modello con certezza. L'aggiunta di un effetto casuale significa sostanzialmente che ritieni che alcuni errori possano essere utili nel prevedere altri errori.


5

Questa è una domanda piuttosto vecchia con alcune risposte molto buone, tuttavia penso che possa beneficiare di una nuova risposta per affrontare una prospettiva più pragmatica.

Quando non si dovrebbe permettere a un effetto fisso di variare tra i livelli di un effetto casuale?

Non affronterò i problemi già descritti nelle altre risposte, invece farò riferimento all'ormai famoso, anche se preferirei dire un articolo "famigerato" di Barr et al (2013) spesso definito semplicemente "Keep it maximal"

Barr, DJ, Levy, R., Scheepers, C. and Tily, HJ, 2013. Struttura di effetti casuali per test di ipotesi di conferma: mantenerlo al massimo. Journal of memory and language, 68 (3), pagg. 255-278.

In questo articolo gli autori sostengono che tutti gli effetti fissi dovrebbero poter variare tra i livelli dei fattori di raggruppamento (intercettazioni casuali). La loro argomentazione è piuttosto avvincente - in sostanza, non permettendo loro di variare, impone vincoli al modello. Questo è ben descritto nelle altre risposte. Tuttavia, ci sono problemi potenzialmente gravi con questo approccio, che sono descritti da Bates el al (2015):

Bates, D., Kliegl, R., Vasishth, S. e Baayen, H., 2015. Modelli misti parsimoniosi. arXiv prestampa arXiv: 1506.04967

Vale la pena notare qui che Bates è l'autore principale del lme4pacchetto per il montaggio di modelli misti in R, che è probabilmente il pacchetto più utilizzato per tali modelli. Bates et al. Notano che in molte applicazioni del mondo reale, i dati semplicemente non supporteranno una struttura di effetti casuali massima, spesso perché ci sono un numero insufficiente di osservazioni in ciascun cluster per le variabili rilevanti. Questo può manifestarsi in modelli che non riescono a convergere o sono singolari negli effetti casuali. Il gran numero di domande su questo sito su tali modelli lo attesta. Notano anche che Barr et al. Hanno usato una simulazione relativamente semplice, con effetti casuali "ben educati" come base per il loro articolo. Invece Bates et al suggeriscono il seguente approccio:

Abbiamo proposto (1) di utilizzare PCA per determinare la dimensionalità della matrice varianza-covarianza della struttura ad effetto casuale, (2) per limitare inizialmente i parametri di correlazione a zero, soprattutto quando un tentativo iniziale di adattamento a un modello massimo non converge, e (3) eliminare dal modello componenti di varianza non significativi e i relativi parametri di correlazione associati

Nello stesso documento, notano anche:

È importante sottolineare che la mancata convergenza non è dovuta a difetti dell'algoritmo di stima, ma è una conseguenza diretta del tentativo di adattare un modello che è troppo complesso per essere adeguatamente supportato dai dati.

E:

non sono necessari modelli massimi per proteggersi da conclusioni anti-conservative. Questa protezione è completamente fornita da modelli globali che sono guidati da aspettative realistiche sulla complessità che i dati possono supportare. In statistica, come altrove nella scienza, la parsimonia è una virtù, non un vizio.

Bates et al (2015)

Da una prospettiva più applicata, un'ulteriore considerazione da prendere è se il processo di generazione dei dati, la teoria biologica / fisica / chimica che sta alla base dei dati, debba guidare l'analista a specificare la struttura degli effetti casuali.


"spesso perché ci sono numeri insufficienti di osservazioni in ciascun cluster" puoi approfondire questo? Ho pensato, il numero minimo richiesto per cluster è 1? Questa è persino la tua risposta accettata qui: stats.stackexchange.com/questions/388937/…
LuckyPal

@LuckyPal la domanda a cui ti sei collegato riguarda le intercettazioni casuali, questa riguarda le pendenze casuali. Come stimeresti una pendenza per una dimensione del campione di 1?
Robert Long,

Punto preso. Grazie! +1 Ma possiamo stimare una pendenza fissa con una sola osservazione per cluster se ci sono abbastanza cluster, giusto? Sembra un po 'strano. Forse, quando ci sono problemi di convergenza con una pendenza casuale a causa delle dimensioni del campione, la stima della pendenza - che sia casuale o no - potrebbe essere discutibile in generale?
LuckyPal

@LuckyPal sì, la stima di una pendenza fissa è su tutti i cluster, quindi di solito non è un problema. Concordo sul fatto che la stima di una pendenza casuale con piccoli cluster potrebbe causare problemi di convergenza, ma non dovrebbe influire sulla stima di una pendenza fissa.
Robert Long,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.