Discrepanza tra regressione e ANOVA (aov vs lm in R)


21

Ho sempre avuto l'impressione che la regressione sia solo una forma più generale di ANOVA e che i risultati sarebbero identici. Di recente, tuttavia, ho eseguito sia una regressione che un ANOVA sugli stessi dati e i risultati differiscono in modo significativo. Cioè, nel modello di regressione sia gli effetti principali che l'interazione sono significativi, mentre nell'ANOVA un effetto principale non è significativo. Mi aspetto che questo abbia qualcosa a che fare con l'interazione, ma non mi è chiaro cosa sia diverso in questi due modi di modellare la stessa domanda. Se è importante, un predittore è categorico e l'altro è continuo, come indicato nella simulazione seguente.

Ecco un esempio di come appaiono i miei dati e di quali analisi sto eseguendo, ma senza che gli stessi valori p o gli effetti siano significativi nei risultati (i miei risultati effettivi sono descritti sopra):

group<-c(1,1,1,0,0,0)
moderator<-c(1,2,3,4,5,6)
score<-c(6,3,8,5,7,4)

summary(lm(score~group*moderator))
summary(aov(score~group*moderator))

Il sommario (lm ()) ti fornisce i coefficienti per i contrasti che hai specificato, che sono contrasti di trattamento in assenza di specifiche qui. Mentre il sommario (aov ()) ti fornisce la tabella anova. Se vuoi l'anova per il modello lm hai bisogno di anova (lm ())
Matt Albrecht,

groupè un vettore numerico, è apposta? Normalmente, i fattori di raggruppamento dovrebbero avere classe factor, in modo tale che la trasformazione in contrasti possa essere gestita automaticamente da funzioni come lm(). Ciò apparirà una volta che hai più di due gruppi o usi una codifica diversa da 0/1 per la tua groupvariabile.
Caracal,

Risposte:


17

La summaryfunzione chiama metodi diversi a seconda della classe dell'oggetto. La differenza non è nel aovvs lm, ma nelle informazioni presentate sui modelli. Ad esempio, se hai usato anova(mod1)e anova(mod2)invece, dovresti ottenere gli stessi risultati.

Come dice @Glen, la chiave è se i test riportati sono basati su somme di quadrati di Tipo 1 o Tipo 3. Questi differiranno quando la correlazione tra le variabili esplicative non è esattamente 0. Quando sono correlate, alcune SS sono uniche per un predittore e altre per l'altro, ma alcune SS potrebbero essere attribuite a uno o entrambi. ( Puoi visualizzarlo immaginando il simbolo MasterCard- al centro c'è una piccola regione di sovrapposizione.) Non esiste una risposta unica in questa situazione e, sfortunatamente, questa è la norma per i dati non sperimentali. Un approccio prevede che l'analista usi il proprio giudizio e assegni le SS sovrapposte a una delle variabili. Quella variabile entra prima nel modello. L'altra variabile entra nel secondo modello e ottiene la SS che sembra un biscotto con un morso rimosso da esso. Il suo effetto può essere testato da ciò che a volte viene chiamato R2cambia o cambia F. Questo approccio utilizza SS di tipo 1. In alternativa, è possibile farlo due volte con ciascuna entrata per prima e riportare il test di modifica F per entrambi i predittori. In questo modo, nessuna delle variabili ottiene la SS a causa della sovrapposizione. Questo approccio utilizza SS di tipo 3. (Dovrei anche dirti che quest'ultimo approccio è tenuto in scarsa considerazione.)

Seguendo il suggerimento di @BrettMagill nel commento qui sotto, posso provare a renderlo un po 'più chiaro. (Nota che, nel mio esempio, sto usando solo 2 predittori e nessuna interazione, ma questa idea può essere ingrandita per includere tutto ciò che ti piace.)

Tipo 1: SS (A) e SS (B | A)

Tipo 3: SS (A | B) e SS (B | A)


1
Questa è una bella descrizione del problema. Si potrebbe chiarire un po 'il testo con questo: Tipo I: SS_A = SS (A) SS_B = SS (B | A) e SS_AB = SS (AB | B, A) Tipo III: SS_A = SS (A | B, AB ) e SS_B = SS (B | A, AB) e SS_AB = SS (AB | A, B)
Brett

1
Grazie mille per il vostro aiuto. Capisco ora cosa sta succedendo in termini di come questi modelli sono diversi, ma non sono ancora chiaro su quando sarebbe appropriato utilizzare un modello di anova o regressione. Il mio consulente sta consigliando anova, ma mi è sempre stato insegnato a usare la regressione e non sono sicuro quale sia più appropriato da usare quando i risultati sono divergenti. Hai qualche esempio o una risorsa su cui consigliarti quando sarebbe opportuno? Grazie ancora per il vostro aiuto.
Rebecca,

1
Mi dispiace, non lo seguo del tutto. Il mio punto è che i modelli non sono in realtà diversi. Un ANOVA è una regressione con tutti i predittori qualitativi. Se hai un modello di regressione con predittori continui e qualitativi e inserisci prima il predittore continuo, allora i predittori qualitativi (ma senza un termine di interazione) sono ANCOVA. Entrambi gli approcci vanno bene, poiché "dietro le quinte" sono identici. Di solito lo codice come una regressione, ma è una questione di stile. OTOH, se il tuo consulente lo desidera, esegui lo stile ANOVA, quindi segui quel percorso, poiché non c'è differenza.
gung - Ripristina Monica

2
Alcune cose: (3 in su) un'interazione non significa che le variabili indipendenti siano correlate, sono solo cose diverse; (2 in su) se il modello 3 è significativamente migliore del modello 2, quindi sì, ciò suggerisce che l'interazione è significativa (poiché l'interazione è l'unica cosa che differisce tra loro); (1 in poi) vuoi evitare solo la pesca di effetti significativi a meno che tu non stia pensando al tuo studio come un pilota che userai per pianificare un successivo studio di conferma (in questo caso penso che tu stia bene); Ho capito che hai condotto questo studio per esaminare tutti e tre, quindi vai con il modello 3.
gung - Reinstate Monica

2
Inoltre, un'interazione implica che non dovresti interpretare gli effetti principali, quindi presentare solo il modello 1 potrebbe essere pericolosamente fuorviante. Se vuoi maggiori informazioni sui tipi di SS, ho scritto una risposta abbastanza completa qui: stats.stackexchange.com/questions/20452/… Inoltre, dovresti accettare una delle risposte, a un certo punto, facendo clic sul segno di spunta accanto a uno di loro.
gung - Ripristina Monica

10

I risultati dell'output di aov ti danno probabilità basate sulla somma dei quadrati di tipo 1. Questo è il motivo per cui il risultato dell'interazione è lo stesso e gli effetti principali differiscono.

Se si utilizzano le probabilità in base alla somma dei quadrati di tipo 3, corrisponderanno ai risultati della regressione lineare.

library(car)
Anova(aov(score~group*moderator),type=3)

5
I modelli lineari e ANOVA saranno equivalenti quando i modelli stanno testando le stesse ipotesi e quando la parametrizzazione dei fattori è equivalente. Le somme cosiddette "Tipo I" e "Tipo III" sono quadrati che sono semplicemente test di diverse ipotesi sottostanti (effetti di somme sequenziali di quadrati rispetto a somme marginali di quadrati). ANOVA tende a nascondere alcune di queste decisioni come implementate in molti pacchetti - un fatto che mi fa credere che la creazione e il test delle ipotesi di interesse attraverso la parametrizzazione dei fattori e il confronto dei modelli in GLM sia un approccio superiore.
Brett,

+1, penso che tu abbia un refuso, però. Sto usando SS di tipo 1 e aov sta usando SS di tipo 3.
gung - Ripristina Monica

2
Le somme dei quadrati di tipo III (marginali) sono utilizzate di default in lm. AOV userebbe il Tipo I (Sequenziale) per impostazione predefinita. I risultati LM sono invarianti per l'ordine mentre i risultati aov dipendono dall'ordine dei fattori.
Brett,

Pensavo che sia lm che aov usassero il tipo I di default, quindi l'uso del capitale A Anova () per il tipo II e III.
Matt Albrecht,

6
In generale, Anova(..., type=3)vi non si darà corretto tipo III SS, se non si attiva anche da contrasti di trattamento (default in R) per effetto codifica per fattori non ordinate ( options(contrasts=c("contr.sum", "contr.poly"))) o altri codici di contrasto somma a zero (ad esempio, Helmert). Ciò apparirà una volta che avrai dimensioni di cella sbilanciate e più di due gruppi ed è anche menzionato nella pagina di aiuto per Anova().
Caracal,

-2

La differenza principale tra regressione lineare e ANOVA è che in ANOVA le variabili predittive sono discrete (ovvero hanno livelli diversi). Mentre nella regressione lineare, le variabili predittive sono continue.


3
Questo non è generalmente vero.
Michael R. Chernick,

L'ho letto da qualche parte su Internet. Puoi per favore spiegare la differenza chiave. Sono un novizio.
vivek
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.