Se il test t e l'ANOVA per due gruppi sono equivalenti, perché i loro presupposti non sono equivalenti?


47

Sono sicuro di averlo completamente avvolto intorno alla testa, ma non riesco proprio a capirlo.

Il test t confronta due distribuzioni normali usando la distribuzione Z. Ecco perché c'è un'ipotesi di normalità nei DATI.

ANOVA equivale alla regressione lineare con variabili fittizie e utilizza somme di quadrati, proprio come OLS. Ecco perché c'è un presupposto della normalità dei RESIDUI.

Mi ci sono voluti diversi anni, ma penso di aver finalmente compreso quei fatti di base. Allora perché il test t è equivalente all'ANOVA con due gruppi? Come possono essere equivalenti se non assumono nemmeno le stesse cose sui dati?


15
Un punto: i test t usano la distribuzione t non la distribuzione Z
Jeromy Anglim,

1
Anche se la domanda non è corretta, è molto utile. Inoltre, penso che la menzione di "test a due code" da qualche parte renderà le domande / risposte più complete.
Gaurav Singhal,

Risposte:


29

Il test t con due gruppi presuppone che ciascun gruppo sia normalmente distribuito con la stessa varianza (sebbene i mezzi possano differire sotto l'ipotesi alternativa). Ciò equivale a una regressione con una variabile fittizia poiché la regressione consente alla media di ciascun gruppo di differire ma non alla varianza. Quindi i residui (uguali ai dati con il gruppo significa sottratto) hanno la stessa distribuzione --- cioè sono normalmente distribuiti con media zero.

Un test t con varianze disuguali non equivale a un ANOVA a senso unico.


3
Posso cercare una citazione, ma è abbastanza facile da testare empiricamente. F da un ANOVA con due gruppi è esattamente uguale a t ^ 2 e i valori p saranno esattamente gli stessi. L'unico motivo per cui non sarebbe equivalente nel caso di varianze disuguali è se si applica una correzione. Altrimenti, sono gli stessi.
Brett,

3
F-test è la generalizzazione di t test. t-test è per il confronto di 2 trattamenti e il test F è per trattamenti multipli. La derivazione è nel disegno statistico di Casella, capitolo 3 e 4. Tuttavia, come sottolinea il prof. Hyndman, con varianze ineguali, non è più un test t. È il problema di Fisher Behren. Generalmente non utilizziamo la soluzione di Fisher, ma piuttosto il test di Welch o un approccio bayesiano.
suncoolsu

Un test t a due campioni con varianze disuguali è effettivamente uguale a un ANOVA a una via con due gruppi. Forse intendevi che un test t che utilizzava una correzione per varianze disuguali (ad es. Welch) non è lo stesso di un ANOVA a senso unico che non viene corretto (anche se perché dovrebbero essere)?
Brett,

20

Il test t è semplicemente un caso speciale del test F in cui vengono confrontati solo due gruppi. Il risultato di entrambi sarà esattamente lo stesso in termini di valore p e c'è anche una semplice relazione tra le statistiche F e t. F = t ^ 2. I due test sono algebricamente equivalenti e i loro presupposti sono gli stessi.

In effetti, queste equivalenze si estendono a tutta la classe di ANOVA, t-test e modelli di regressione lineare. Il test t è un caso speciale di ANOVA. ANOVA è un caso speciale di regressione. Tutte queste procedure sono incluse nel Modello lineare generale e condividono le stesse ipotesi.

  1. Indipendenza delle osservazioni.
  2. Normalità dei residui = normalità in ciascun gruppo nel caso speciale.
  3. Pari varianze di residui = varianze uguali tra i gruppi nel caso speciale.

Potresti pensarlo come una normalità nei dati, ma stai verificando la normalità in ciascun gruppo, il che è in realtà lo stesso del controllo della normalità nei residui quando l'unico predittore nel modello è un indicatore di gruppo. Allo stesso modo con varianze uguali.

A parte questo, R non ha routine separate per ANOVA. Le funzioni anova in R sono solo wrapper per la funzione lm () - la stessa cosa che viene utilizzata per adattarsi ai modelli di regressione lineare - impacchettati in modo leggermente diverso per fornire ciò che si trova in genere in un riepilogo ANOVA piuttosto che in un riepilogo della regressione.


Sarebbe interessato a sapere come adattare i modelli ANOVA a misure ripetute usando lm.
AndyF,

1
In questo articolo sono descritte le questioni relative alla codifica delle variabili categoriali, l'equivalenza della regressione e dei modelli ANOVA e la codifica della regressione per misure ripetute. dionysus.psych.wisc.edu/Lit/Topics/Statistics/Contrasts/… Ecco la citazione ... Wendorf, CA (2004). Primer sulla codifica a regressione multipla: forme comuni e caso aggiuntivo di contrasti ripetuti. Comprensione delle statistiche 3, 47-57.
Brett,

4
@AndyF No lm(), a meno che non si passi a modelli misti con il pacchetto nlmeo lme4, ma esiste un modo pratico per gestire misurazioni ripetute attraverso le specifiche appropriate del Errortermine in aov(), vedere maggiori dettagli sul tutorial di Baron & Li, §6.9, j.mp/ c5ME4u
chl

@AndyF aov()è costruito sopra la lm()funzione ma include argomenti aggiuntivi, chiamati termini speciali , come Error.
chl

aov () è semplicemente un wrapper per lm (). Fa un po 'di codifica del contrasto dietro le quinte e confeziona il risultato in stile ANOVA. Tutto è modellato da lm (). Nell'articolo a cui ho fatto riferimento in precedenza, spiega come impostare la codifica per eseguire contrasti ripetuti nei modelli di regressione, incluso lm ().
Brett,

17

Sono totalmente d'accordo con la risposta di Rob, ma lasciatemi dire in un altro modo (usando Wikipedia):

Ipotesi ANOVA :

  • Indipendenza dei casi - questa è un'ipotesi del modello che semplifica l'analisi statistica.
  • Normalità: le distribuzioni dei residui sono normali.
  • Uguaglianza (o "omogeneità") delle varianze, chiamata omoscedasticità

T-test di ipotesi :

  • Ognuna delle due popolazioni confrontate dovrebbe seguire una distribuzione normale ...
  • ... le due popolazioni confrontate dovrebbero avere la stessa varianza ...
  • I dati utilizzati per eseguire il test devono essere campionati indipendentemente dalle due popolazioni confrontate.

Quindi, confuterei la domanda, dato che ovviamente hanno gli stessi presupposti (anche se in un ordine diverso :-)).


Vedi commento a Rob.
Alexis,

@Alexis Non sono sicuro di aver capito il tuo voto negativo. Cura di elaborare.
Henrik,

Il secondo presupposto del test t non è vero. Il lavoro originale dello studente ha assunto tutto ciò, ma "varianze disuguali" sono un presupposto abbastanza comune nel trattamento successivo del test.
Alexis,

5

Un punto ovvio che tutti hanno trascurato: con ANOVA stai testando il valore nullo che la media è identica indipendentemente dai valori delle tue variabili esplicative. Con un T-Test puoi anche testare il caso unilaterale, che la media è specificamente maggiore dato un valore della tua variabile esplicativa rispetto all'altro.


1
A meno che non mi sbagli, questa NON è una differenza. Se esegui un ANOVA su due gruppi, puoi eseguire un "test unilaterale" proprio come puoi fare in un test t. Ho messo il "test unilaterale" tra virgolette perché in realtà non vi è alcuna differenza nel "test" tra un "test unilaterale" e un "test bilaterale". L'unica differenza è il modo in cui interpreti il ​​significato statistico dei valori p. Quindi i "test" unilaterali contro due sono esattamente gli stessi "test". Solo il modo di interpretare correttamente i risultati è diverso.
Tripartio,

-3

Preferirò usare il test t per confrontare due gruppi e userò ANOVA per più di 2 gruppi, per motivi. La ragione importante è l'assunzione di varianze uguali.


5
Benvenuto nel sito, @syed. Ti dispiacerebbe espandere la tua risposta? Ad esempio, a quali "motivi" ti riferisci? Si noti che sia il test t che ANOVA assumono varianze uguali.
gung - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.