Perché l'ANOVA viene insegnato / usato come se fosse una metodologia di ricerca diversa rispetto alla regressione lineare?


91

ANOVA è equivalente alla regressione lineare con l'uso di variabili fittizie adatte. Le conclusioni rimangono le stesse indipendentemente dal fatto che si usi ANOVA o regressione lineare.

Alla luce della loro equivalenza, c'è qualche motivo per cui viene utilizzato ANOVA invece della regressione lineare?

Nota: sono particolarmente interessato a conoscere le ragioni tecniche per l'uso di ANOVA anziché la regressione lineare.

modificare

Ecco un esempio usando ANOVA a senso unico. Supponiamo che tu voglia sapere se l'altezza media di maschi e femmine è la stessa. Per verificare la tua ipotesi, dovresti raccogliere dati da un campione casuale di maschi e femmine (diciamo 30 ciascuno) ed eseguire l'analisi ANOVA (ovvero la somma dei quadrati per genere ed errore) per decidere se esiste un effetto.

È inoltre possibile utilizzare la regressione lineare per verificare ciò come segue:

Definisci: se il rispondente è un maschio e altrimenti. dove:0 Altezza = Intercetta + β Genere + errore errore N ( 0 , σ 2 )Genere=10

Altezza=Intercettare+β*Genere+errore
errore~N(0,σ2)

Quindi un test per verificare se è un test equivalente per la tua ipotesi.β=0


2
Se non sbaglio, la regressione lineare è la stima dei coefficienti che definiscono una buona mappa lineare da X a Y. ANOVA è un test per sapere se ci sono differenze significative in X quando Y assume due valori diversi. Puoi spiegarci perché pensi che siano uguali?
Robin Girard,

28
ANOVA può essere visto come "zucchero sintattico" per uno speciale sottogruppo di modelli di regressione lineare. ANOVA è regolarmente utilizzato da ricercatori che non sono statistici per formazione. Ora sono "istituzionalizzati" ed è difficile riconvertirli utilizzando la rappresentazione più generale ;-)
suncoolsu

3
βββ

Risposte:


55

Come economista, l'analisi della varianza (ANOVA) viene insegnata e generalmente compresa in relazione alla regressione lineare (ad es. In A Course in Econometrics di Arthur Goldberger ). Gli economisti / econometrici in genere considerano l'ANOVA poco interessante e preferiscono passare direttamente ai modelli di regressione. Dal punto di vista dei modelli lineari (o anche lineari generalizzati), ANOVA assegna coefficienti in lotti, con ciascun lotto corrispondente a una "fonte di variazione" nella terminologia ANOVA.

Generalmente è possibile replicare le inferenze che si otterrebbero da ANOVA usando la regressione ma non sempre la regressione OLS. Sono necessari modelli multilivello per l'analisi di strutture di dati gerarchiche come "progetti a trama divisa", in cui gli effetti tra gruppi vengono confrontati con errori a livello di gruppo e gli effetti all'interno di gruppo vengono confrontati con errori a livello di dati. L'articolo di Gelman [1] esamina in dettaglio questo problema e sostiene efficacemente che ANOVA è un importante strumento statistico che dovrebbe ancora essere insegnato per se stesso.

In particolare Gelman sostiene che ANOVA è un modo di comprendere e strutturare modelli multilivello. Pertanto ANOVA non è un'alternativa alla regressione ma come uno strumento per riassumere inferenze complesse ad alta dimensione e per l'analisi dei dati esplorativi.

Gelman è uno statistico molto rispettato e una certa credenza dovrebbe essere data al suo punto di vista. Tuttavia, quasi tutto il lavoro empirico che faccio sarebbe ugualmente ben servito dalla regressione lineare e quindi cado fermamente nel campo di vederlo come un po 'inutile. Alcune discipline con progetti di studio complessi (ad es. Psicologia) possono trovare utile ANOVA.

[1] Gelman, A. (2005). Analisi della varianza: perché è più importante che mai (con discussione). Annali delle statistiche 33, 1–53. doi: 10,1214 / 009053604000001048


1
Grazie per il riferimento Gelman. Leggerò il suo articolo. Ma non possiamo analizzare modelli multilivello usando la massima verosimiglianza classica? Concordo sul fatto che OLS sia inefficiente / inappropriato per i modelli multilivello.

3
@Srikant: esistono molti modi per gestire i dati multilivello e Gelman è "il re" di questo campo. Il suo punto è che ANOVA è un metodo semplice / chiaro per catturare le caratteristiche chiave di strutture dati complesse e gerarchiche o progetti di studio e ANOVA è un modo semplice / chiaro per presentare i risultati chiave. In questo senso il suo ruolo è complementare o esplorativo.
Graham Cookson,

1
+1 per una bella risposta chiara. Il paragrafo 3 è essenzialmente ciò che mi è stato insegnato come studente di biologia, con particolare attenzione alla facilità di combinare variabili indipendenti continue e categoriche in un quadro ANOVA.
Freya Harrison,

23

Penso che il secondo paragrafo di Graham sia al centro della questione. Sospetto che non sia tanto tecnico che storico, probabilmente a causa dell'influenza dei " Metodi statistici per i ricercatori " e della facilità di insegnamento / applicazione dello strumento per i non statistici nell'analisi sperimentale che coinvolge fattori discreti, piuttosto che approfondire la costruzione di modelli e strumenti associati. In statistica, l'ANOVA viene di solito insegnato come un caso speciale di regressione. (Penso che questo sia simile al motivo per cui la biostatistica è piena di una miriade di "test" omonimi piuttosto che enfatizzare la costruzione di modelli.)


14

Direi che alcuni di voi usano il termine regressione quando dovreste usare un modello lineare generale. Penso alla regressione come a un glm che coinvolge covariate continue. Quando le covariate continue sono combinate con variabili fittizie che dovrebbero essere chiamate analisi della covarianza. Se vengono utilizzate solo variabili fittizie, ci riferiamo a quella forma speciale di glm come analisi della varianza. Penso che l'analisi della varianza abbia un secondo significato distinto come la procedura per testare coefficienti significativi in ​​un glm usando la decomposizione della varianza in componenti del termine del modello e componente del termine dell'errore.


2
(+1) Ho anche immediatamente notato l'ambigua terminologia "regressione" durante la discussione.
Stéphane Laurent,

1
(+1) GLM potrebbe essere il modo migliore per districare diversi significati. Va anche notato che nella storia di ANOVA sono state utilizzate procedure di calcolo che oscurano la relazione tra OLS e ANOVA. La nomenclatura potrebbe quindi essere giustificata da ragioni storiche.
Jank

10

ANOVA può essere utilizzato con variabili esplicative categoriche (fattori) che accettano più di 2 valori (livelli) e fornisce un test di base che la risposta media è la stessa per ogni valore. Questo evita il problema di regressione quando si effettuano più test t a coppie tra questi livelli:

  • T-test multipli su un livello di significatività del 5% fisso, farebbero ottenere risultati errati all'incirca al 5%.
  • Questi test non sono indipendenti l'uno dall'altro. Il confronto dei livelli di A con quelli di B è collegato al confronto tra A e C, poiché i dati di A vengono utilizzati in entrambi i test.

È meglio usare i contrasti per diverse combinazioni sui livelli di fattore che si desidera testare.


1
α=.05

7
(3) la tua risposta implica che il problema dei confronti multipli si applica alla regressione OLS, cosa che non accade se condotta correttamente. Il modo corretto di testare un fattore in un contesto di regressione è testare il modello nidificato con tutti i manichini fattoriali rilasciati rispetto al modello completo con tutti i manichini fattoriali inclusi. Questo test è identico a quello condotto da ANOVA. È vero che non dovresti usare i test delle singole variabili fittizie (che sospetto sia ciò che stai cercando di descrivere qui).
gung - Ripristina Monica

3

ANOVA stai testando se ci sono differenze significative tra la popolazione significa supponendo che stai confrontando più di due mezzi di popolazione, quindi userai un test F.

Nell'analisi di regressione si crea un modello tra variabili indipendenti e una variabile dipendente. Se si dispone di una variabile indipendente con quattro livelli, è possibile utilizzare tre variabili fittizie ed eseguire un modello di regressione. Il test F per il modello di regressione che viene utilizzato per verificare la significatività del modello di regressione è lo stesso della F che si ottiene quando si verifica la differenza tra la popolazione. Se si esegue una regressione graduale, alcune delle variabili fittizie potrebbero essere eliminate dal modello e il valore F sarà diverso da quello quando si esegue il test ANOVA.


5
Questo rende ANOVA una procedura di test e la regressione una procedura di modellazione in cui è possibile eseguire test. Ma ANOVA ha anche un modello di base, indipendentemente dal fatto che questo sia enfatizzato in tutti i trattamenti introduttivi. Quindi, questa risposta non cattura alcuna differenza tra di loro. Né viene affrontato alla domanda, motivo per cui vengono insegnati come diversi indipendentemente da forti somiglianze.
Nick Cox,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.