ANOVA vs regressione lineare multipla? Perché l'ANOVA è così comunemente usato negli studi sperimentali?


24

ANOVA vs regressione lineare multipla?

Comprendo che entrambi questi metodi sembrano utilizzare lo stesso modello statistico. Tuttavia, in quali circostanze dovrei usare quale metodo?

Quali sono i vantaggi e gli svantaggi di questi metodi rispetto?

Perché l'ANOVA è così comunemente usato negli studi sperimentali e non trovo quasi mai uno studio di regressione?


5
Dato che entrambi usano lo stesso modello, non importa quale usi.
Peter Flom - Ripristina Monica

3
La chiamo regressione quando sto confrontando pendenze, cioè variabili predittive continue, e ANOVA quando sto confrontando mezzi, cioè variabili predittive categoriche. Il motivo per cui trovi ANOVA di più negli studi sperimentali è perché stanno principalmente confrontando mezzi o livelli di trattamenti, ad esempio confrontando diversi fertilizzanti sulla crescita delle piante. Ma come già detto da @PeterFlom entrambi usano lo stesso modello e non importa quale si usi - l'unica cosa che sembra diversa è l'output che ti danno - e in base alla tua domanda vuoi l'output "regressione" o il Uscita "ANOVA".
Stefan,

2
Mmm, ma potresti anche includere predittori categorici in una regressione tramite codifica fittizia?
Florian,

Sì, naturalmente!
Stefan,

4
La tua domanda è molto valida ed è stata affrontata più volte da diverse prospettive sul CV. La natura duplicata di questi test è sconcertante. È facile dire ANOVA = regressione lineare, e penso che tutti i commenti fatti finora siano utili e puntuali, ma la realtà è un po 'più sfumata e difficile da capire, specialmente se includi ANCOVA sotto l'ombrello dell'analisi di varianza. Controlla altre voci, come questa . Sono +1 alla tua domanda, sebbene sia, a rigor di termini, un duplicato. Puoi dare un ex.?
Antoni Parellada,

Risposte:


22

Sarebbe interessante apprezzare che la divergenza sta nel tipo di variabili , e in particolare nei tipi di variabili esplicative . Nella tipica ANOVA abbiamo una variabile categoriale con diversi gruppi e proviamo a determinare se la misurazione di una variabile continua differisce tra i gruppi. D'altra parte, OLS tende a essere percepito principalmente come un tentativo di valutare la relazione tra un regresso continuo o una variabile di risposta e uno o più regressori o variabili esplicative . In questo senso la regressione può essere vista come una tecnica diversa, prestandosi a predire valori basati su una linea di regressione.

Tuttavia , questa differenza non regge l'estensione di ANOVA al resto dell'analisi della zuppa dell'alfabeto di varianza (ANCOVA, MANOVA, MANCOVA); o l'inclusione di variabili con codice fittizio nella regressione OLS. Non sono chiaro i punti di riferimento storici specifici, ma è come se entrambe le tecniche abbiano sviluppato adattamenti paralleli per affrontare modelli sempre più complessi.

Ad esempio, possiamo vedere che le differenze tra ANCOVA e OLS con variabili fittizie (o categoriche) (in entrambi i casi con interazioni) sono al massimo estetiche. Per favore, scusa la mia partenza dai confini nel titolo della tua domanda, riguardo alla regressione lineare multipla.

In entrambi i casi, il modello è sostanzialmente identico al punto che in R la lmfunzione viene utilizzata per eseguire ANCOVA . Tuttavia, può essere presentato come diverso per quanto riguarda l'inclusione di un'intercetta corrispondente al primo livello (o gruppo) della variabile fattore (o categorica) nel modello di regressione.

In un modello bilanciato ( gruppi di uguali dimensioni , n 1 , 2 , io ) e solo una covariata (per semplificare la presentazione della matrice), la matrice del modello in ANCOVA può essere riscontrata come una variazione di:n1,2,io

X=[1n100Xn10001n200Xn20001n300Xn3]

per gruppi della variabile fattore, espressi come matrici a blocchi.3

Ciò corrisponde al modello lineare:

con α i equivalenti al diverso gruppo significa in un modello ANOVA, mentre i diversi β sono le pendenze della covariata per ciascuno dei gruppi.

y=αio+β1Xn1+β2Xn2+β3Xn3+εio
αioβ

La presentazione dello stesso modello nel campo della regressione, e in particolare in R, considera un'intercettazione generale, corrispondente a uno dei gruppi, e la matrice del modello potrebbe essere presentata come:

X=[00000J3n,11n20X0Xn2001n300Xn3]

dell'equazione OLS:

y=β0+μio+β1Xn1+β2Xn2+β3Xn3+εio

β0μio

Come puoi vedere dalle matrici del modello, la presentazione cela l'identità effettiva tra regressione e analisi della varianza.

Mi piace questo tipo di verifica con alcune righe di codice e miei dati preferiti impostati mtcarsin R . Sto usando lmper ANCOVA secondo il documento di Ben Bolker disponibile qui .

mtcars$cyl <- as.factor(mtcars$cyl)         # Cylinders variable into factor w 3 levels
D <- mtcars  # The data set will be called D.
D <- D[order(D$cyl, decreasing = FALSE),]   # Ordering obs. for block matrices.

model.matrix(lm(mpg ~ wt * cyl, D))         # This is the model matrix for ANCOVA

Per quanto riguarda la parte della domanda su quale metodo usare (regressione con R!) Potresti trovare divertente questo commento online che mi sono imbattuto mentre scrivevo questo post.


1
Grazie per questo commento estremamente utile ... Citando dal commento che hai collegato: "Usa la regressione quando non sei sicuro che le variabili categoriali indipendenti abbiano alcun effetto. Usa ANOVA quando vuoi vedere se determinate categorie hanno effetti diversi ". Allora come mai molti studi sperimentali usano ANOVA allora? Dalla mia comprensione la regressione sarebbe la scelta giusta. I ricercatori sono troppo convinti che gli effetti ci siano e cercano solo modi per "dimostrarli" statisticamente?
Florian,

Potresti fornire un esempio pratico in cui si dovrebbe usare Aov sulla regressione e spiegare perché? Grazie per il tuo tempo. Sono anche uno psicologo che si allena e non riesco a vedere i vantaggi di Anova, tranne che probabilmente è pubblicato più facilmente.
Florian,

Qualche fortuna? Sarei molto interessato a qualsiasi euristica più concreta per favorire entrambi i tipi di procedura, quindi per favore condividi se trovi una risposta.
Antoni Parellada,

Sfortunatamente nessuna nuova scoperta nel mio viaggio in Statistica finora ... ti terrà aggiornato, più input sono apprezzati.
Florian,

Ho difficoltà a comprendere la matrice del modello OLS e l'equazione corrispondente qui. Non capisco da dove provenga la colonna zero (quinta colonna della matrice). Inoltre, penso che l'equazione dovrebbe corrispondere alle colonne (cioè mu_i dovrebbe essere solo per due gruppi e la variabile x dovrebbe essere inclusa senza interazione con un gruppo fittizio). Ulteriori chiarimenti sono molto apprezzati!
Nick

4

La regressione di ANOVA e OLS è matematicamente identica nei casi in cui i tuoi predittori sono categorici (in termini di inferenze che stai ricavando dalla statistica del test). Per dirla in altro modo, ANOVA è un caso speciale di regressione. Non c'è nulla che un ANOVA possa dirti che la regressione non può derivare da sé. Il contrario, tuttavia, non è vero. ANOVA non può essere utilizzato per l'analisi con variabili continue. Come tale, ANOVA potrebbe essere classificata come la tecnica più limitata. La regressione, tuttavia, non è sempre utile per l'analista meno sofisticato. Ad esempio, la maggior parte degli script ANOVA genera automaticamente termini di interazione, dove come con la regressione spesso è necessario calcolare manualmente tali termini utilizzando il software. L'uso diffuso di ANOVA è in parte una reliquia dell'analisi statistica prima dell'uso di un software statistico più potente, e, a mio avviso, una tecnica più semplice da insegnare agli studenti inesperti il ​​cui obiettivo è una comprensione a livello relativamente superficiale che consentirà loro di analizzare i dati con un pacchetto statistico di base. Provalo qualche volta ... Esamina la statistica t che sputa una regressione di base, quadrala e poi confrontala con il rapporto F dell'ANOVA sugli stessi dati. ! identico


Questo non è vero.
Michael R. Chernick,

4
@MichaelChernick Potresti approfondire quale delle tante affermazioni fatte in questa risposta ritieni non vere? Sebbene richieda alcune posizioni estreme, è difficile trovare quelli falsi.
whuber

Ho obiettato all'affermazione che la regressione ANOVA e OLS sono matematicamente identiche. Riconosco che ANOVA può essere considerata una regressione in una forma del modello lineare generale che può essere formulata come una regressione.
Michael R. Chernick,

Nel caso OLS, in che modo non sono identici oltre all'output? Il modello sottostante è lo stesso, i residui sono gli stessi, i valori p che producono sono gli stessi. È l'output che differisce.
dbwilson,

2

Il principale vantaggio di ANOVA ov rhe la regressione, secondo me, sta nell'output. Se sei interessato al significato statistico della variabile categoriale (fattore) come blocco, ANOVA ti offre questo test. Con la regressione, la variabile categoriale è rappresentata da 2 o più variabili fittizie, a seconda del numero di categorie, e quindi si hanno 2 o più test statistici, ognuno confrontando la media per la particolare categoria con la media della categoria nulla (o il media complessiva, a seconda del metodo di codifica fittizia). Nessuno di questi può essere di interesse. Pertanto, è necessario eseguire l'analisi post-stima (essenzialmente ANOVA) per ottenere il test complessivo del fattore a cui si è interessati.


In realtà, questo non è vero. Se si esegue un test del rapporto di verosimiglianza, si sta testando l'intero fattore categoriale come blocco in un modello di regressione.
Dan Chaltiel,

Il tuo commento non contraddice quello che ho detto. Il test del rapporto di verosimiglianza menzionato sarebbe un'analisi post-stima sul fattore, confrontando il modello con il fattore con il modello senza.
dbwilson,

Se esegui un ANOVA, otterrai un valore per "la variabile categoriale (fattore) come blocco", così come la regressione con LRT. La regressione può fornirti diversi beta ma non eseguirà più test di ANOVA, quindi la tua affermazione "quindi hai 2 o più test statistici" mi sembra sbagliata. Perché LRT sarebbe più "post-stima" dell'ANOVA?
Dan Chaltiel il

1

Il principale vantaggio della regressione lineare è che è robusto per la violazione dell'omogeneità della varianza quando le dimensioni del campione tra i gruppi sono disuguali. Un altro è che facilita l'inclusione di diverse covariate (anche se questo può essere facilmente realizzato attraverso ANCOVA quando sei interessato a includere solo una covariata). La regressione si diffuse negli anni Settanta con l'avvento dei progressi nella potenza di calcolo. Potresti anche trovare la regressione più conveniente se sei particolarmente interessato ad esaminare le differenze tra livelli particolari di una variabile categoriale quando sono presenti più di due livelli (purché tu abbia impostato la variabile fittizia nella regressione in modo che uno di questi due livelli rappresenta il gruppo di riferimento).


1
Come sottolineato nell'altra risposta, un ANOVA è una regressione multipla.
gung - Ripristina Monica

Grazie, quindi quali sono i vantaggi di Anova? Perché dovresti usare un Anova / Ancova su un modello di regressione?
Florian,

Ho una domanda qui. Perché hai indicato "solo una covariata" quando hai spiegato l'utilità di ANCOVA? È perché è possibile includere solo una covariata in ANCOVA?
Kevin Kang,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.