Questa domanda evidentemente proveniva da uno studio con un design a due vie sbilanciato, analizzato in R con la aov()
funzione; questa pagina fornisce un esempio più recente e dettagliato di questo problema.
La risposta generale a questa domanda, come a tante, è: "Dipende". Qui dipende se il design è bilanciato e, in caso contrario, quale sapore di ANOVA viene scelto.
Innanzitutto, dipende dal fatto che il design sia bilanciato. Nel migliore dei mondi possibili, con un numero uguale di casi in tutte le celle di un disegno fattoriale, non vi sarebbe alcuna differenza a causa dell'ordine di inserimento dei fattori nel modello, indipendentemente da come viene eseguito ANOVA. * I casi a portata di mano , evidentemente da una coorte clinica retrospettiva, sembrano provenire da un mondo reale in cui tale equilibrio non è stato trovato. Quindi l'ordine potrebbe avere importanza.
In secondo luogo, dipende da come viene eseguita l'ANOVA, che è un problema piuttosto controverso. I tipi di ANOVA per i disegni non bilanciati differiscono nell'ordine di valutazione dei principali effetti e interazioni. La valutazione delle interazioni è fondamentale per ANOVA bidirezionale e di ordine superiore, pertanto esistono controversie sul modo migliore di procedere. Vedi questa pagina convalidata per una spiegazione e discussione. Vedere i dettagli e l'avvertenza per la funzione Anova()
(con la "A" maiuscola nel manuale del car
pacchetto per una vista diversa.
L'ordine dei fattori non importa in disegni non bilanciati sotto il default aov()
in R, che utilizza ciò che sono chiamati di tipo I-Test. Queste sono attribuzioni sequenziali della varianza ai fattori nell'ordine di entrata nel modello, come previsto dalla presente domanda. L'ordine non ha importanza con le prove di tipo II o di tipo III fornite dalla Anova()
funzione nel car
pacchetto in R. Queste alternative, tuttavia, hanno i loro potenziali svantaggi annotati nei collegamenti sopra.
Infine, considera la relazione con la regressione lineare multipla come lm()
in R, che è essenzialmente lo stesso tipo di modello se includi termini di interazione. L'ordine di immissione delle variabili lm()
non ha importanza in termini di coefficienti di regressione e valori p riportati da summary(lm())
, in cui un fattore categorico di livello k è codificato come variabili fittizie binarie (k-1) e un coefficiente di regressione è riportato per ciascun manichino .
È, tuttavia, possibile racchiudere l' lm()
output con anova()
(minuscola "a", dal stats
pacchetto R ) o Anova()
riassumere l'influenza di ciascun fattore su tutti i suoi livelli, come ci si aspetta dall'ANOVA classico. Quindi l'ordinamento dei fattori avrà importanza per anova()
quanto riguarda aov()
, e non avrà importanza Anova()
. Allo stesso modo, le controversie su quale tipo di ANOVA utilizzare tornerebbero. Quindi non è sicuro assumere l'indipendenza dall'ordine di inserimento dei fattori con tutti gli usi a valle dei lm()
modelli.
* Avere un numero uguale di osservazioni in tutte le celle è sufficiente ma, a quanto ho capito, non è necessario che l'ordine dei fattori sia irrilevante. Tipi di equilibrio meno impegnativi possono consentire l'indipendenza dell'ordine.