Assunzione di normalità di un test t
Considera una grande popolazione dalla quale potresti prelevare molti campioni diversi di una dimensione particolare. (In uno studio particolare, generalmente raccogli solo uno di questi campioni.)
Il test t presuppone che i mezzi dei diversi campioni siano normalmente distribuiti; non presuppone che la popolazione sia normalmente distribuita.
Secondo il teorema del limite centrale, i mezzi di campioni di una popolazione con varianza finita si avvicinano a una distribuzione normale indipendentemente dalla distribuzione della popolazione. Le regole empiriche dicono che i mezzi di campionamento sono sostanzialmente distribuiti normalmente fintanto che la dimensione del campione è almeno 20 o 30. Affinché un test t sia valido su un campione di dimensioni inferiori, la distribuzione della popolazione dovrebbe essere approssimativamente normale.
Il test t non è valido per piccoli campioni da distribuzioni non normali, ma è valido per campioni grandi da distribuzioni non normali.
Piccoli campioni da distribuzioni non normali
Come osserva Michael sotto, la dimensione del campione necessaria per la distribuzione dei mezzi per approssimare la normalità dipende dal grado di non normalità della popolazione. Per distribuzioni approssimativamente normali, non avrai bisogno di un campione così grande come una distribuzione non normale.
Ecco alcune simulazioni che puoi eseguire in R per avere un'idea di ciò. Innanzitutto, ecco un paio di distribuzioni della popolazione.
curve(dnorm,xlim=c(-4,4)) #Normal
curve(dchisq(x,df=1),xlim=c(0,30)) #Chi-square with 1 degree of freedom
Seguono alcune simulazioni di campioni dalle distribuzioni della popolazione. In ciascuna di queste righe, "10" è la dimensione del campione, "100" è il numero di campioni e la funzione che segue specifica la distribuzione della popolazione. Producono istogrammi dei mezzi di campionamento.
hist(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
hist(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')
Perché un test t sia valido, questi istogrammi dovrebbero essere normali.
require(car)
qqp(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
qqp(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')
Utilità di un test t
Devo notare che tutta la conoscenza che ho appena impartito è in qualche modo obsoleta; ora che abbiamo i computer, possiamo fare di meglio dei t-test. Come osserva Frank, probabilmente vorrai usare i test Wilcoxon ovunque ti sia stato insegnato per eseguire un test t.