L'ordine delle variabili in ANOVA è importante, no?


20

Sono corretto nel comprendere che l'ordine in cui le variabili sono specificate in un ANOVA multifattoriale fa la differenza ma che l'ordine non ha importanza quando si esegue una regressione lineare multipla?

Supponendo quindi un risultato come la perdita di sangue misurata y e due variabili categoriche

  1. metodo di adenoidectomia a ,
  2. metodo di tonsillectomia b .

Il modello y~a+bè diverso dal modello y~b+a(o almeno la mia implementazione in R sembra indicare).

Ho ragione a capire che il termine qui è che ANOVA è un modello gerarchico poiché attribuisce la prima varianza possibile al primo fattore prima di provare ad attribuire la varianza residua al secondo fattore?

Nell'esempio sopra la gerarchia ha senso perché faccio sempre l'adenoidectomia prima di fare la tonsillectomia, ma cosa accadrebbe se si avessero due variabili senza ordine intrinseco?


12
L'ordine è importante negli ANOVA con progetti sbilanciati, ovvero quando vi sono dimensioni cellulari diverse. Questo argomento è spesso trattato sotto il titolo di "tipi di somme di quadrati". Vedi epm.sagepub.com/content/38/3/621.full.pdf+html e la risposta di chl
caracal


Ho appena prolungato una mia discussione più vecchia nella speranza che possa far luce sulla questione. Sicuramente ha ancora bisogno di lavoro, e forse qualcuno ha i nervi per aiutarlo a modificarlo. Ecco quello che ho finora: go.helms-net.de/stat/div/%28SSE%29%20ANovaRegression_SPSS_R.htm Forse c'è qualcosa di interessante con il potenziale da estrarre in una risposta esplicita a questa domanda qui.
Gottfried Helms

Risposte:


17

Questa domanda evidentemente proveniva da uno studio con un design a due vie sbilanciato, analizzato in R con la aov()funzione; questa pagina fornisce un esempio più recente e dettagliato di questo problema.

La risposta generale a questa domanda, come a tante, è: "Dipende". Qui dipende se il design è bilanciato e, in caso contrario, quale sapore di ANOVA viene scelto.

Innanzitutto, dipende dal fatto che il design sia bilanciato. Nel migliore dei mondi possibili, con un numero uguale di casi in tutte le celle di un disegno fattoriale, non vi sarebbe alcuna differenza a causa dell'ordine di inserimento dei fattori nel modello, indipendentemente da come viene eseguito ANOVA. * I casi a portata di mano , evidentemente da una coorte clinica retrospettiva, sembrano provenire da un mondo reale in cui tale equilibrio non è stato trovato. Quindi l'ordine potrebbe avere importanza.

In secondo luogo, dipende da come viene eseguita l'ANOVA, che è un problema piuttosto controverso. I tipi di ANOVA per i disegni non bilanciati differiscono nell'ordine di valutazione dei principali effetti e interazioni. La valutazione delle interazioni è fondamentale per ANOVA bidirezionale e di ordine superiore, pertanto esistono controversie sul modo migliore di procedere. Vedi questa pagina convalidata per una spiegazione e discussione. Vedere i dettagli e l'avvertenza per la funzione Anova()(con la "A" maiuscola nel manuale del carpacchetto per una vista diversa.

L'ordine dei fattori non importa in disegni non bilanciati sotto il default aov()in R, che utilizza ciò che sono chiamati di tipo I-Test. Queste sono attribuzioni sequenziali della varianza ai fattori nell'ordine di entrata nel modello, come previsto dalla presente domanda. L'ordine non ha importanza con le prove di tipo II o di tipo III fornite dalla Anova()funzione nel carpacchetto in R. Queste alternative, tuttavia, hanno i loro potenziali svantaggi annotati nei collegamenti sopra.

Infine, considera la relazione con la regressione lineare multipla come lm()in R, che è essenzialmente lo stesso tipo di modello se includi termini di interazione. L'ordine di immissione delle variabili lm()non ha importanza in termini di coefficienti di regressione e valori p riportati da summary(lm()), in cui un fattore categorico di livello k è codificato come variabili fittizie binarie (k-1) e un coefficiente di regressione è riportato per ciascun manichino .

È, tuttavia, possibile racchiudere l' lm()output con anova()(minuscola "a", dal statspacchetto R ) o Anova()riassumere l'influenza di ciascun fattore su tutti i suoi livelli, come ci si aspetta dall'ANOVA classico. Quindi l'ordinamento dei fattori avrà importanza per anova()quanto riguarda aov(), e non avrà importanza Anova(). Allo stesso modo, le controversie su quale tipo di ANOVA utilizzare tornerebbero. Quindi non è sicuro assumere l'indipendenza dall'ordine di inserimento dei fattori con tutti gli usi a valle dei lm()modelli.


* Avere un numero uguale di osservazioni in tutte le celle è sufficiente ma, a quanto ho capito, non è necessario che l'ordine dei fattori sia irrilevante. Tipi di equilibrio meno impegnativi possono consentire l'indipendenza dell'ordine.


In effetti sì, quei dati osservativi erano sbilanciati, molto sbilanciati.
Farrel,

Spero che questo commento ottenga ancora una risposta qui: tu dici che, secondo un progetto di studio equilibrato, la stima delle SS non dipenderà mai dall'ordine, indipendentemente dal tipo di test anova (tipo I, II, III) scelto. Non sono sicuro di capirlo. usando la funzione 'anova' in R (che usa i test di tipo I) su un modello lineare basato su dati bilanciati, sicuramente l'ordine delle caratteristiche conta, no?
PejoPhylo,

1
@PejoPhylo quando i dati sono bilanciati, puoi avere quello che viene chiamato un disegno ortogonale. Con un design ortogonale esiste un modo unico per dividere le somme di quadrati tra i trattamenti e le loro interazioni, quindi l'ordine di entrata dei trattamenti non avrà importanza rispetto alle stime degli effetti e dei loro valori p. Questa pagina fornisce una spiegazione matematica. Questo non è immediatamente ovvio; la domanda che ho appena collegato è stata posta da un membro di questo sito con una delle più alte reputazione. I dati sbilanciati possono distruggere l'ortogonalità.
EdM

Grazie mille per la tua risposta @EdM
PejoPhylo

0

Il termine modello gerarchico si riferisce alla struttura tra i fattori. Ad esempio, uno studio multicentrico è gerarchico: i pazienti sono nidificati negli ospedali che li curano. Ogni ospedale tratta i pazienti con placebo e verum, ma riceverli ciascuno in uno degli ospedali A o B è leggermente diverso a causa di un effetto comune dell'ospedale che governa su tutti i loro pazienti (potrebbe anche essere un effetto di interazione con l'agente sperimentale). Quindi si chiama effetto gerarchico.

Ora i tuoi metodi di ectomia possono essere gerarchici: è plausibile che un certo metodo di tonsillectomia sia leggermente diverso (di per sé, non ancora nell'effetto, perché è quello che stai per stimare e testare) a seconda del metodo di adenoidectomia usato prima dello stesso paziente? Se sì, dovresti specificarlo nel tuo modello.

La tua osservazione che y ~ a + b potrebbe essere diversa da y ~ b + a indica che c'è qualcosa che non va. Gli effetti additivi commutano, quindi non ci dovrebbe essere una differenza (a parte piccole differenze numeriche). Non è plausibile né desiderato che l'effetto dei metodi chirurgici possa dipendere dall'ordine in cui lo statistico in seguito specifica gli effetti. Quindi probabilmente hai scelto l'approccio sbagliato per alimentare Ri dati.


1
Non sono sicuro di seguire l'ultimo paragrafo. Nell'ANOVA fattoriale sbilanciato i valori di p per ciascun fattore calcolato tramite la somma dei quadrati di tipo I (sequenziale) dipenderanno sicuramente dall'ordine dei fattori. Credo che questo sia il punto centrale della domanda.
ameba dice di reintegrare Monica

Non sono sicuro che @Farrel abbia ottenuto SS di tipo I. Ricordo di aver osservato una volta SAS che produceva SS di tipo III diverse a causa di un ordinamento disparato nel set di dati e nell'istruzione del modello. Forse questo può succedere anche con R?
Horst Grünbusch,

2
Non lo so per certo e potrebbe non ricordarsi di sé dato che il Q è stato chiesto cinque anni fa. Ma penso che questa sia di gran lunga la più parsimoniosa interpretazione delle sue parole "Il modello y ~ a + b è diverso dal modello y ~ b + a (o almeno la mia implementazione in R sembra indicare)", in particolare dato il fatto quel aovcomando in R usa SS di tipo I per impostazione predefinita. Quando ho offerto la generosità, mi aspettavo di ottenere una risposta che spiegasse i problemi alla base del design anova sbilanciato, le differenze tra Tipo I / II / III SS e alcuni commenti sul fatto che la regressione lineare abbia o meno gli stessi problemi.
ameba dice di reintegrare Monica

1
No. La matrice del design è singolare in anova anche se è bilanciata, quando non c'è differenza tra SS I / II / III. Le SS I / II / III sono diverse solo nel caso sbilanciato perché i fattori diventano non ortogonali (diversamente dal caso bilanciato). A mio avviso, ciò corrisponde a una regressione lineare con predittori correlati, che è una situazione molto comune. La mia risposta è che lo stesso problema si verifica anche nella regressione, è solo che è standard calcolare un valore p di un predittore dopo aver tenuto conto degli effetti di tutti gli altri predittori; questo corrisponde al tipo III SS in anova.
ameba dice di reintegrare Monica

1
Continuano a sorgere domande sull'ordine variabile in ANOVA, come questa migrata ieri da Stack Overflow. Penso che sia sicuro presumere che questa domanda di 5 anni sia stata basata allo stesso modo aovpiuttosto che su lm, e sarebbe utile avere una risposta a questa domanda del tipo che @amoeba ha indicato nel commento del 12 maggio 14:31 .
EdM,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.