Se desideriamo condurre un test t accoppiato, il requisito è (se ho capito bene) che la differenza media tra le unità di misura abbinate sarà distribuita normalmente.
Nel test t accoppiato, questo è articolato (AFAIK) nella richiesta che la differenza tra le unità di misura abbinate sarà distribuita normalmente (anche se la distribuzione di ciascuno dei due gruppi confrontati non è normale).
Tuttavia, in un test t non accoppiato, non possiamo parlare della differenza tra unità abbinate, quindi richiediamo che le osservazioni dei due gruppi siano normali in modo che la differenza della loro media sia normale. Il che mi porta alla mia domanda:
È possibile per due distribuzioni non normali in modo che la differenza dei loro mezzi sia distribuita normalmente? (e quindi, soddisfare i nostri requisiti necessari per eseguire un test t spaiato su di loro - ancora una volta - per quanto ho capito).
Aggiornamento: (grazie a tutti per le risposte) Vedo che la regola generale che stiamo cercando è davvero che la differenza dei mezzi sarà normale, il che sembra essere un buon presupposto (sotto n abbastanza grande) a causa del CLT. Questo è sorprendente per me (non sorprendente, semplicemente fantastico), per quanto riguarda come funziona per il t-test spaiato, ma non funzionerà altrettanto bene per il test t singolo campione. Ecco un po 'di codice R per illustrare:
n1 <- 10
n2 <- 10
mean1 <- 50
mean2 <- 50
R <- 10000
# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
# hist(diffs)
P <- numeric(R)
MEAN <- numeric(R)
for(i in seq_len(R))
{
y1 <- rexp(n1, 1/mean1)
y2 <- runif(n2, 0, 2*mean2)
MEAN[i] <- mean(y1) - mean(y2)
P[i] <- t.test(y1,y2)$p.value
}
# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
par(mfrow = c(1,2))
hist(P)
qqplot(P, runif(R)); abline(0,1)
sum(P<.05) / R # for n1=n2=10 -> 0.0715 # wrong type I error, but only for small n1 and n2 (for larger ones, this effect disappears)
n1 <- 100
mean1 <- 50
R <- 10000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
y1 <- rexp(n1, 1/mean1)
P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
par(mfrow = c(1,2))
hist(P_y1)
qqplot(P_y1, runif(R)); abline(0,1)
sum(P_y1<.05) / R # for n1=n2=10 -> 0.057 # "wrong" type I error
Grazie.