Test T per non normale quando N> 50?


77

Molto tempo fa ho appreso che era necessaria una distribuzione normale per utilizzare un T-test a due campioni. Oggi una collega mi ha detto di aver appreso che per N> 50 la distribuzione normale non era necessaria. È vero?

Se è vero a causa del teorema del limite centrale?


3
Domanda relativa con una molto buona risposta da Glen_b stats.stackexchange.com/questions/121852/...
Tim

Risposte:


83

Assunzione di normalità di un test t

Considera una grande popolazione dalla quale potresti prelevare molti campioni diversi di una dimensione particolare. (In uno studio particolare, generalmente raccogli solo uno di questi campioni.)

Il test t presuppone che i mezzi dei diversi campioni siano normalmente distribuiti; non presuppone che la popolazione sia normalmente distribuita.

Secondo il teorema del limite centrale, i mezzi di campioni di una popolazione con varianza finita si avvicinano a una distribuzione normale indipendentemente dalla distribuzione della popolazione. Le regole empiriche dicono che i mezzi di campionamento sono sostanzialmente distribuiti normalmente fintanto che la dimensione del campione è almeno 20 o 30. Affinché un test t sia valido su un campione di dimensioni inferiori, la distribuzione della popolazione dovrebbe essere approssimativamente normale.

Il test t non è valido per piccoli campioni da distribuzioni non normali, ma è valido per campioni grandi da distribuzioni non normali.

Piccoli campioni da distribuzioni non normali

Come osserva Michael sotto, la dimensione del campione necessaria per la distribuzione dei mezzi per approssimare la normalità dipende dal grado di non normalità della popolazione. Per distribuzioni approssimativamente normali, non avrai bisogno di un campione così grande come una distribuzione non normale.

Ecco alcune simulazioni che puoi eseguire in R per avere un'idea di ciò. Innanzitutto, ecco un paio di distribuzioni della popolazione.

curve(dnorm,xlim=c(-4,4)) #Normal
curve(dchisq(x,df=1),xlim=c(0,30)) #Chi-square with 1 degree of freedom

Seguono alcune simulazioni di campioni dalle distribuzioni della popolazione. In ciascuna di queste righe, "10" è la dimensione del campione, "100" è il numero di campioni e la funzione che segue specifica la distribuzione della popolazione. Producono istogrammi dei mezzi di campionamento.

hist(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
hist(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')

Perché un test t sia valido, questi istogrammi dovrebbero essere normali.

require(car)
qqp(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
qqp(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')

Utilità di un test t

Devo notare che tutta la conoscenza che ho appena impartito è in qualche modo obsoleta; ora che abbiamo i computer, possiamo fare di meglio dei t-test. Come osserva Frank, probabilmente vorrai usare i test Wilcoxon ovunque ti sia stato insegnato per eseguire un test t.


7
Buona spiegazione (+1). Aggiungerei, tuttavia, che la dimensione del campione necessaria per la distribuzione dei mezzi per approssimare la normalità dipende dal grado di non normalità della popolazione. Per campioni di grandi dimensioni non c'è motivo di preferire un test t rispetto a un test di permutazioni che non faccia ipotesi sulle distribuzioni.
Michael Lew,

2
+1 anche se, per quanto ne so, il test t è abbastanza resistente alle moderate deviazioni dalla normalità. Inoltre, un'interessante discussione correlata: stats.stackexchange.com/questions/2492/…
nico,

4
buona risposta, anche se c'è un piccolo dettaglio che hai perso: la distribuzione dei dati deve avere una varianza finita. Il T-test è senza speranza per confrontare la differenza nella posizione di due distribuzioni di Cauchy (o studente con 2 gradi di libertà), non perché sia ​​"non robusto", ma perché per queste distribuzioni ci sono ulteriori informazioni rilevanti nel campione oltre i mezzi e deviazioni standard che il test t getta via.
probabilityislogic

2
Inoltre, il test t fornisce naturalmente intervalli di confidenza per il parametro in esame. (ancora votato a causa dei due primi paragrafi che affrontano direttamente la domanda, non sono assolutamente d'accordo con il terzo)
Erik

7
Il test t richiede la normalità della popolazione. Questo è un presupposto necessario affinché la statistica t abbia una distribuzione t-Student. Se non hai una popolazione normale, non puoi esprimere la statistica t come una variabile normale standard divisa per la radice di una variabile Chi-quadrato divisa per i suoi gradi di libertà. Forse quello che stai cercando di dire è che se alcune condizioni sono vere, come non troppa asimmetria o un grande campione, il test può essere valido anche quando la popolazione non è normale.
Toneloy,

44

Il teorema del limite centrale è meno utile di quanto si possa pensare in questo contesto. Innanzitutto, come qualcuno ha già sottolineato, non si sa se l'attuale dimensione del campione sia "abbastanza grande". In secondo luogo, il CLT riguarda più il raggiungimento dell'errore desiderato di tipo I che l'errore di tipo II. In altre parole, il test t può essere competitivo dal punto di vista energetico. Ecco perché il test Wilcoxon è così popolare. Se la normalità è valida, è efficiente al 95% come il test t. Se la normalità non regge, può essere arbitrariamente più efficiente del test t.


7
(+1) Benvenuto nel sito, che mi fa piacere che tu abbia trovato. Non vedo l'ora della tua partecipazione qui.
cardinale il

4
(+1) Un buon punto sul Wilcoxon.
whuber

18

Vedi la mia precedente risposta a una domanda sulla solidità del test t .

In particolare, consiglio di giocare con l' applet onlinestatsbook .

L'immagine seguente si basa sul seguente scenario:

  • l'ipotesi nulla è vera
  • asimmetria abbastanza grave
  • stessa distribuzione in entrambi i gruppi
  • stessa varianza in entrambi i gruppi
  • dimensione del campione per gruppo 5 (cioè molto meno di 50 secondo la tua domanda)
  • Ho premuto il pulsante 10.000 simulazioni circa 100 volte per ottenere fino a oltre un milione di simulazioni.

La simulazione ottenuta suggerisce che invece di ottenere errori di tipo I al 5%, stavo ottenendo solo errori di tipo I al 4,5%.

Se lo consideri robusto dipende dalla tua prospettiva.

inserisci qui la descrizione dell'immagine


4
+1 Punti positivi. La potenza del test t con alternative distorte, tuttavia, può degradare gravemente (al punto in cui è essenzialmente zero anche per dimensioni di effetti enormi).
whuber

6

h=0.24999

p=1041p

edit : duh, per @ whuber la cattura nel commento, l'esempio che ho dato non aveva zero medio, quindi il test per zero medio non ha nulla a che fare con il tipo I rate.

Poiché l'esempio della lotteria ha spesso una deviazione standard del campione pari a zero, il test t soffoca. Quindi, invece, faccio un esempio di codice usando la distribuzione di Lambert W x Gaussian di Goerg . La distribuzione che uso qui ha un'inclinazione di circa 1355.

#hey look! I'm learning R!
library(LambertW)

Gauss_input = create_LambertW_input("normal", beta=c(0,1))
params = list(delta = c(0), gamma = c(2), alpha = 1)
LW.Gauss = create_LambertW_output(input = Gauss_input, theta = params)
#get the moments of this distribution
moms <- mLambertW(beta=c(0,1),distname=c("normal"),delta = 0,gamma = 2, alpha = 1)

test_ttest <- function(sampsize) {
    samp <- LW.Gauss$rY(params)(n=sampsize)
    tval <- t.test(samp, mu = moms$mean)
    return(tval$p.value)
}

#to replicate randomness
set.seed(1)

pvals <- replicate(1024,test_ttest(50))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

pvals <- replicate(1024,test_ttest(250))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

p    vals <- replicate(1024,test_ttest(1000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

pvals <- replicate(1024,test_ttest(2000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

Questo codice fornisce il tasso di rifiuto empirico al livello nominale 0,05 per diverse dimensioni del campione. Per un campione di dimensioni 50, il tasso empirico è 0,40 (!); per la dimensione del campione 250, 0,29; per la dimensione del campione 1000, 0,21; per la dimensione del campione 2000, 0,18. Chiaramente il test t di un campione soffre di inclinazione.


p=0

1

Il teorema del limite centrale stabilisce (nelle condizioni richieste) che il numeratore della statistica t è asintoticamente normale. La statistica t ha anche un denominatore. Per avere una distribuzione t avresti bisogno che il denominatore sia indipendente e radice quadrata-di-un-chi-quadrato-sulla-sua-df.

E sappiamo che non sarà indipendente (ciò caratterizza il normale!)

Il teorema di Slutsky combinato con il CLT ti darebbe che la statistica t è asintoticamente normale (ma non necessariamente a un ritmo molto utile).

Quale teorema stabilirebbe che la statistica t è approssimativamente distribuita in t quando c'è non normalità e quanto velocemente arriva? (Naturalmente, alla fine anche la t- si avvicinerà alla normale, ma stiamo assumendo che l'approssimazione a un'altra approssimazione sarà migliore del semplice utilizzo dell'approssimazione normale ...)


t

n


3
xi+xjxixjcov(xi+xj,xixj)=var(xi)var(xj)+cov(xi,xj)cov(xj,xi)=0var(xi)=var(xj)

1
Sfortunatamente, la distinzione tra non correlati e indipendenti è rilevante se vogliamo finire con una distribuzione t.
Glen_b,

0

Sì, il Teorema del limite centrale ci dice che questo è vero. Fintanto che si evitano tratti dalla coda estremamente pesante, la non normalità non presenta problemi in campioni da moderati a grandi.

Ecco un utile documento di revisione;

http://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546

Il test di Wilcoxon (menzionato da altri) può avere un potere terribile quando l'alternativa non è uno spostamento della posizione della distribuzione originale. Inoltre, il modo in cui misura le differenze tra le distribuzioni non è transitivo.


Punti interessanti sul Wilcoxon. Tuttavia, il test t ha difficoltà simili: è particolarmente dannoso nel rilevare turni che sono accompagnati da una maggiore varianza. La parte della transitività sembra essere principalmente una curiosità nel contesto attuale; è difficile capire quanto sia rilevante per il test di ipotesi originale o per la sua interpretazione. (Ma forse l'intransività potrebbe diventare importante in un ANOVA o in più confronti.)
whuber

Il test t di varianza diseguale (che è l'impostazione predefinita in alcuni software) non presenta problemi di eteroschedasticità.
ospite

Per quanto riguarda la transitività; riportare i mezzi campione o le differenze nei mezzi (che è naturale usando un approccio t-test) dà al lettore qualcosa che possono prendere in considerazione quando si campionano da altre popolazioni. La non transitività del test di Wilcoxon significa che questo approccio non ha tale analogo; l'utilizzo di file di dati è un approccio molto limitato.
ospite

1
(1) Il test Satterthwaite-Welch (varianza diseguale) non supera la perdita di potenza a cui ho fatto riferimento (anche se può aiutare un po '). (2) Penso che tu sia estremo nel caratterizzare l'uso dei ranghi come "limitato". Nella sua risposta, @Frank Harrell si riferiva a studi che dimostrano come il test Wilcoxon mantenga un'alta efficienza in molti contesti: questo dimostra come l'utilizzo dei ranghi sia sia efficace che più flessibile, non più limitato, rispetto ai test t.
whuber

(1) No, ma fornisce il giusto tasso di errore di tipo I, in campioni da moderati a grandi (2) Grazie, ma non sono d'accordo. L'uso dei test t su Wilcoxon rende molto più semplice colmare il divario tra i test e l'utilizzo degli intervalli di confidenza. Se uno vuole solo fare test e non guarda mai oltre i due gruppi in uno studio, Wilcoxon ovviamente ha situazioni in cui funziona bene. Ma spesso non vogliamo fare solo test e vogliamo aiutare gli utenti a generalizzare i risultati ad altre situazioni; il test Wilcoxon non è quindi utile.
ospite

0

Sull'uso del test Wilcoxon-Mann-Whitney in alternativa, raccomando il documento Il test Wilcoxon-Man-Whitney sotto esame

Come test di mezzi o mediane, il test di Wilcoxon – Mann – Whitney (WMW) può essere gravemente non affidabile per le deviazioni dal modello del puro spostamento.

Queste sono le raccomandazioni degli autori dell'articolo:

La trasformazione del rango può alterare in modo diverso mezzi, deviazioni standard e inclinazioni dei due campioni. L'unica situazione in cui la trasformazione del rango è garantita per ottenere un effetto benefico è quando le distribuzioni sono identiche e le dimensioni del campione sono uguali. Per deviazioni da questi presupposti piuttosto rigorosi, gli effetti della trasformazione dei ranghi sui momenti campione sono imprevedibili. Nello studio di simulazione dell'articolo, il test WMW è stato confrontato con il test Fligner – Policello (FP), il test Brunner – Munzel (BM), il test T a due campioni (T), il test Welch U (U), e il test Welch U sui ranghi (RU). I quattro test basati sui ranghi (WMW, FP, BM e RU) hanno funzionato in modo simile, sebbene il test BM fosse spesso un po 'migliore degli altri. Quando le dimensioni del campione erano uguali, i test parametrici (T e U) erano superiori ai test basati sul rango secondo l'ipotesi nulla di uguali mezzi, ma non sotto l'ipotesi nulla di pari mediani. Quando le dimensioni del campione erano disuguali, i test BM, RU e U hanno dato i risultati migliori. Per diverse impostazioni, piccoli cambiamenti nelle proprietà della popolazione hanno portato a grandi alterazioni nell'esecuzione dei test. In sintesi, il test WMW approssimativo di grandi campioni può essere un metodo inadeguato per confrontare le medie o le mediane di due popolazioni, a meno che le due distribuzioni abbiano forme e scale uguali. Questo problema sembra applicarsi in vari gradi all'esatto test WMW, test FP, test BM e test Welch U sui ranghi. Quando si utilizza il test WMW, gli autori raccomandano che le proprietà dei campioni classificati siano studiate a fondo per rilevare segni di disomogeneità ed eterogeneità della varianza.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.