ANOVA ipotesi normalità / distribuzione normale dei residui


52

La pagina Wikipedia su ANOVA elenca tre ipotesi , vale a dire:

  • Indipendenza dei casi - questa è un'ipotesi del modello che semplifica l'analisi statistica.
  • Normalità: le distribuzioni dei residui sono normali.
  • Uguaglianza (o "omogeneità") delle varianze, chiamata omoscedasticità ...

Il punto di interesse qui è il secondo presupposto. Diverse fonti elencano l'assunzione in modo diverso. Alcuni sostengono la normalità dei dati grezzi, altri sostengono i residui.

Vengono visualizzate diverse domande:

  • la normalità e la normale distribuzione dei residui sono la stessa persona (in base alla voce di Wikipedia, direi che la normalità è una proprietà e non riguarda direttamente i residui (ma può essere una proprietà dei residui (testo profondamente annidato tra parentesi, strano)))?
  • in caso contrario, quale ipotesi dovrebbe valere? Uno? Entrambi?
  • se l'assunzione di residui normalmente distribuiti è quella giusta, stiamo commettendo un grave errore controllando solo l'istogramma dei valori grezzi per la normalità?

Puoi praticamente ignorare qualsiasi altra cosa quelle fonti che dicono se sostengono che i dati grezzi devono essere normalmente distribuiti. E chi ha detto "noi" stavamo controllando i valori grezzi solo con gli istogrammi, comunque. Ti trovi in ​​una di quelle classi Six Sigma ???
DWin,

1
@Andy W: Ho appena aggiunto un link a quella che sembra essere la sezione pertinente dell'articolo di Wikipedia su ANOVA.
onestop il

@DWin: blog.markanthonylawson.com/?p=296 (scusa, completamente fuori tema ma non ho potuto resistere)
onestop

@onestop grazie. Ho richiesto il link solo perché sono pigro e non volevo cercare ANOVA su wikipedia da solo, non perché è essenziale per la domanda.
Andy W,

Risposte:


35

Supponiamo che questo sia un modello a effetti fissi . (Il consiglio non cambia davvero per i modelli a effetti casuali, diventa solo un po 'più complicato.)

  1. No, la normalità e la normale distribuzione dei residui non sono le stesse . Supponiamo di aver misurato la resa da una coltura con e senza un'applicazione di fertilizzante. Nelle trame senza fertilizzante la resa variava da 70 a 130. In due trame con fertilizzante la resa variava da 470 a 530. La distribuzione dei risultati è fortemente non normale: è raggruppata in due punti relativi all'applicazione del fertilizzante. Supponiamo inoltre che i rendimenti medi siano rispettivamente 100 e 500. Quindi tutti i residui vanno da -30 a +30. Potrebbero (o non potrebbero) essere normalmente distribuiti, ma ovviamente questa è una distribuzione completamente diversa.

  2. La distribuzione dei residui è importante , perché riflettono la parte casuale del modello. Si noti inoltre che i valori p sono calcolati dalle statistiche F (o t) e che dipendono dai residui, non dai valori originali.

  3. Se ci sono effetti significativi ed importanti nei dati (come in questo esempio), allora si potrebbe essere fare un errore "grave" . Per fortuna, potresti prendere la decisione corretta: cioè guardando i dati grezzi vedrai una miscela di distribuzioni e questo può sembrare normale (o no). Il punto è che ciò che stai cercando non è rilevante.

I residui di ANOVA non devono essere in alcun modo vicini al normale per adattarsi al modello. Tuttavia, la quasi normalità dei residui è essenziale affinché i valori p calcolati dalla distribuzione F siano significativi.


6
Penso che ci siano punti importanti da aggiungere: in un ANOVA, la normalità all'interno di ciascun gruppo (non nel complesso) equivale alla normalità dei residui.
Aniko,

2
@Aniko Potresti per favore approfondire cosa intendi per "equivalente" nel tuo commento? È quasi tautologico che la normalità all'interno di un gruppo sia uguale alla normalità dei residui di quel gruppo, ma è falso che la normalità separatamente all'interno di ciascun gruppo implichi (o sia implicita da) la normalità dei residui.
whuber

7
Intendevo davvero il senso tautologico: se i gruppi sono normali, i residui sono normali. Il contrario è vero solo se si aggiunge l'omoscedascità (come in ANOVA). Non intendo sostenere la verifica dei gruppi invece dei residui, ma penso che questa sia la ragione di fondo per la diversa formulazione delle ipotesi.
Aniko,

2
Ho notato che le persone che fanno un ANOVA di solito sembrano interessate a calcolare i valori p, e quindi la normalità dei residui è importante per loro. Ci sono ragioni comuni per adattare un modello ANOVA se non siamo interessati a calcolare i valori p dalla distribuzione F? Mi scuso se questa domanda è troppo ampia per un commento.
user1205901 - Ripristina Monica

3
@ user1205901 Questo è un ottimo punto. Due usi comuni di ANOVA che non si basano sul test F sono (1) è un modo conveniente per ottenere stime di effetti e (2) è parte integrante di un componente del calcolo della varianza.
whuber

8

Lo standard ANOVA a senso unico classico può essere visto come un'estensione del classico "test T a 2 campioni" a un "test T a n campioni". Ciò può essere visto confrontando un ANOVA a una via con solo due gruppi al classico test T a 2 campioni.

Penso che il punto in cui ti stai confondendo sia che (secondo i presupposti del modello) i residui e i dati grezzi siano ENTRAMBE normalmente distribuiti. Tuttavia, i dati grezzi sono costituiti da distribuzioni normali con mezzi diversi (a meno che tutti gli effetti non siano esattamente gli stessi) ma con la stessa varianza. I residui invece hanno la stessa distribuzione normale . Questo deriva dal terzo presupposto dell'omoscedasticità.

Yiojμjσ2Yioj=μj+σεiojεioj

εioj

Yioj


1
+1 per indicare (nell'ultimo paragrafo) l'ipotesi di omoscedasticità.
whuber

Vuol dire che se abbiamo diciamo n gruppi dipendenti per confrontare abbiamo bisogno di controllare i loro residui a parte (con conseguente n gruppi di residui)?
Stan

5

pnjF=SSB/dfBSSw/dfw

SSB=Σj=1pnj(M-Mj)2

SSw=Σj=1pΣio=1nj(yioj-Mj)2

FFSSB/dfBSSw/dfwχ2dfBdfwSSBSSw0M-Mjyioj-Mj

yio(j)-MjY=μj+ε=μ+αj+εyio(j)-MY=μ+εM-Mj

H0Myio(j)-MjM-Mj


2
SSχ2Mj=Mjyioj-MjMj-M

@onestop Modificato per riflettere i tuoi chiarimenti, grazie!
Caracal,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.