Come viene calcolato un ANOVA per un disegno di misure ripetute: aov () vs lm () in R


13

Il titolo dice tutto e sono confuso. Di seguito viene eseguita una ripetuta misura aov () in R, e viene eseguita quella che pensavo fosse una chiamata equivalente lm (), ma restituiscono diversi residui di errore (sebbene le somme dei quadrati siano uguali).

Chiaramente i valori residui e adattati di aov () sono quelli utilizzati nel modello, poiché le loro somme di quadrati si sommano a ciascuno dei modelli / somme residue di quadrati riportati nel riepilogo (my.aov). Quindi quali sono gli attuali modelli lineari che vengono applicati a un disegno a misure ripetute?

set.seed(1)
# make data frame,
# 5 participants, with 2 experimental factors, each with 2 levels
# factor1 is A, B
# factor2 is 1, 2
DF <- data.frame(participant=factor(1:5), A.1=rnorm(5, 50, 20), A.2=rnorm(5, 100, 20), B.1=rnorm(5, 20, 20), B.2=rnorm(5, 50, 20))

# get our experimental conditions
conditions <- names(DF)[ names(DF) != "participant" ]

# reshape it for aov
DFlong <- reshape(DF, direction="long", varying=conditions, v.names="value", idvar="participant", times=conditions, timevar="group")

# make the conditions separate variables called factor1 and factor2
DFlong$factor1 <- factor( rep(c("A", "B"), each=10) )
DFlong$factor2 <- factor( rep(c(1, 2), each=5) )

# call aov
my.aov <- aov(value ~ factor1*factor2 + Error(participant / (factor1*factor2)), DFlong)

# similar for an lm() call
fit <- lm(value ~ factor1*factor2 + participant, DFlong)

# what's aov telling us?
summary(my.aov)

# check SS residuals
sum(residuals(fit)^2)       # == 5945.668

# check they add up to the residuals from summary(my.aov)
2406.1 + 1744.1 + 1795.46   # == 5945.66

# all good so far, but how are the residuals in the aov calculated?
my.aov$"participant:factor1"$residuals

#clearly these are the ones used in the ANOVA:
sum(my.aov$"participant:factor1"$residuals ^ 2)

# this corresponds to the factor1 residuals here:
summary(my.aov)


# but they are different to the residuals reported from lm()
residuals(fit)
my.aov$"participant"$residuals
my.aov$"participant:factor1"$residuals
my.aov$"participant:factor1:factor2"$residuals

1
Non sono sicuro se questo è ciò che vuoi dire, ma troverai tutte le SS quando ti adatti anche all'interazione participant , come inanova(lm(value ~ factor1*factor2*participant, DFlong))
caracal

1
Ah, è utile, ok, quindi dal modello lm (value ~ factor1 * factor2 * participant, DFlong), come vengono effettivamente calcolate le somme dei quadrati? cioè cosa sta facendo anova ()?
tre

Risposte:


13

Un modo di pensare è per trattare la situazione come un 3-fattoriale tra soggetti ANOVA con flebo participant, factor1, factor2, e una dimensione di cella di 1. anova(lm(value ~ factor1*factor2*participant, DFlong))calcola tutte le SS per tutti gli effetti di questo 3 vie ANOVA (3 effetti principali, 3 interazioni del primo ordine, 1 interazione del secondo ordine). Dato che c'è solo 1 persona in ogni cella, il modello completo non ha errori e la chiamata di cui sopra anova()non può calcolare i test F. Ma le SS sono le stesse del 2 fattoriale all'interno del design.

Come anova()calcola effettivamente le SS per un effetto? Attraverso confronti sequenziali di modelli (tipo I): si adatta a un modello limitato senza l'effetto in questione e a un modello senza restrizioni che include tale effetto. La SS associata a questo effetto è la differenza nell'errore SS tra i due modelli.

# get all SS from the 3-way between subjects ANOVA
anova(lm(value ~ factor1*factor2*participant, DFlong))

dfL <- DFlong   # just a shorter name for your data frame
names(dfL) <- c("id", "group", "DV", "IV1", "IV2")   # shorter variable names

# sequential model comparisons (type I SS), restricted model is first, then unrestricted
# main effects first
anova(lm(DV ~ 1,      dfL), lm(DV ~ id,         dfL))  # SS for factor id
anova(lm(DV ~ id,     dfL), lm(DV ~ id+IV1,     dfL))  # SS for factor IV1
anova(lm(DV ~ id+IV1, dfL), lm(DV ~ id+IV1+IV2, dfL))  # SS for factor IV2

# now first order interactions
anova(lm(DV ~ id+IV1+IV2, dfL), lm(DV ~ id+IV1+IV2+id:IV1,  dfL))  # SS for id:IV1
anova(lm(DV ~ id+IV1+IV2, dfL), lm(DV ~ id+IV1+IV2+id:IV2,  dfL))  # SS for id:IV2
anova(lm(DV ~ id+IV1+IV2, dfL), lm(DV ~ id+IV1+IV2+IV1:IV2, dfL))  # SS for IV1:IV2

# finally the second-order interaction id:IV1:IV2
anova(lm(DV ~ id+IV1+IV2+id:IV1+id:IV2+IV1:IV2,            dfL),
      lm(DV ~ id+IV1+IV2+id:IV1+id:IV2+IV1:IV2+id:IV1:IV2, dfL))

Ora controlliamo l'effetto SS associato all'interazione id:IV1sottraendo l'errore SS del modello senza restrizioni dall'errore SS del modello con restrizioni.

sum(residuals(lm(DV ~ id+IV1+IV2,        dfL))^2) -
sum(residuals(lm(DV ~ id+IV1+IV2+id:IV1, dfL))^2)

Ora che hai tutti gli effetti "grezzi" SS, puoi costruire i test entro soggetti semplicemente scegliendo il termine di errore corretto per testare un effetto contro. Ad esempio, testare l'effetto SS per factor1l'effetto di interazione SS di participant:factor1.

Per un'eccellente introduzione all'approccio del confronto tra modelli, raccomando Maxwell & Delaney (2004). Progettazione di esperimenti e analisi dei dati.


Ottima risposta, mi ha davvero aiutato a capire finalmente cosa sta facendo un ANOVA! Grazie anche per il riferimento al libro!
trev
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.