Una domanda probabilmente molto basilare sull'ANOVA multifattoriale. Supponiamo un design a due vie in cui testiamo sia gli effetti principali A, B, sia l'interazione A: B. Quando si verifica l'effetto principale per A con SS di tipo I, l'effetto SS viene calcolato come differenza , dove è la somma dell'errore residuo di quadrati per il modello con solo l'intercettazione e l'RSS per il modello con il fattore A aggiunto. La mia domanda riguarda la scelta del termine di errore:
Come si giustifica che il termine di errore per questo test sia in genere calcolato dall'RSS del modello completo A + B + A: B che include sia gli effetti principali sia l'interazione?
... al contrario di prendere il termine di errore dal modello senza restrizioni dal confronto effettivo (RSS dal solo effetto principale A nel caso sopra):
Ciò fa la differenza, poiché il termine di errore del modello completo è spesso (non sempre) più piccolo del termine di errore del modello senza restrizioni nel confronto. Sembra che la scelta del termine di errore sia in qualche modo arbitraria, creando spazio per le desiderate variazioni del valore p semplicemente aggiungendo / rimuovendo fattori che non sono realmente interessanti, ma cambiano comunque il termine di errore.
Nel seguente esempio, il valore F per A cambia considerevolmente a seconda della scelta per il modello completo, anche se il confronto effettivo per l'effetto SS rimane lo stesso.
> DV <- c(41,43,50, 51,43,53,54,46, 45,55,56,60,58,62,62,
+ 56,47,45,46,49, 58,54,49,61,52,62, 59,55,68,63,
+ 43,56,48,46,47, 59,46,58,54, 55,69,63,56,62,67)
> IV1 <- factor(rep(1:3, c(3+5+7, 5+6+4, 5+4+6)))
> IV2 <- factor(rep(rep(1:3, 3), c(3,5,7, 5,6,4, 5,4,6)))
> anova(lm(DV ~ IV1)) # full model = unrestricted model (just A)
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.556 0.9342 0.4009
Residuals 42 2272.80 54.114
> anova(lm(DV ~ IV1 + IV2)) # full model = A+B
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.56 1.9833 0.1509
IV2 2 1253.19 626.59 24.5817 1.09e-07 ***
Residuals 40 1019.61 25.49
> anova(lm(DV ~ IV1 + IV2 + IV1:IV2)) # full model = A+B+A:B
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.56 1.8102 0.1782
IV2 2 1253.19 626.59 22.4357 4.711e-07 ***
IV1:IV2 4 14.19 3.55 0.1270 0.9717
Residuals 36 1005.42 27.93
La stessa domanda si applica al tipo II SS, e in generale a un'ipotesi lineare generale, cioè a un confronto tra un modello ristretto e uno non ristretto all'interno di un modello completo. (Per il tipo III SS, il modello senza restrizioni è sempre il modello completo, quindi la domanda non si pone qui)
IV1
(1 ° esempio), le due espressioni per il denominatore sono identiche. Tuttavia, quando il modello completo contiene effetti aggiuntivi, il denominatore per il test cambia anche se il confronto del modello ( rispetto al SS di tipo 1) no. Nei 3 esempi, il quadrato medio per A non cambia (confronto dello stesso modello in tutti i casi), ma l'errore quadrato medio cambia. Sono interessato a ciò che giustifica il cambiamento del termine di errore quando il confronto effettivo rimane lo stesso. ~ 1
~ IV1 + 1
anova(lm(DV ~ IV1))
anova(lm(DV ~ 1))
anova(lm(DV ~ IV1))