La distribuzione dei dati non deve essere normale, è la distribuzione campionaria che deve essere quasi normale. Se la dimensione del tuo campione è abbastanza grande, la distribuzione campionaria dei mezzi di Landau Distribution dovrebbe essere quasi normale, a causa del Teorema del limite centrale .
Quindi significa che dovresti essere in grado di utilizzare in modo sicuro t-test con i tuoi dati.
Esempio
Consideriamo questo esempio: supponiamo di avere una popolazione con distribuzione Lognormal con mu = 0 e sd = 0.5 (sembra un po 'simile a Landau)
Quindi campioniamo 30 osservazioni 5000 volte da questa distribuzione ogni volta calcolando la media del campione
E questo è ciò che otteniamo
Sembra abbastanza normale, no? Se aumentiamo la dimensione del campione, è ancora più evidente
Codice R.
x = seq(0, 4, 0.05)
y = dlnorm(x, mean=0, sd=0.5)
plot(x, y, type='l', bty='n')
n = 30
m = 1000
set.seed(0)
samp = rep(NA, m)
for (i in 1:m) {
samp[i] = mean(rlnorm(n, mean=0, sd=0.5))
}
hist(samp, col='orange', probability=T, breaks=25, main='sample size = 30')
x = seq(0.5, 1.5, 0.01)
lines(x, dnorm(x, mean=mean(samp), sd=sd(samp)))
n = 300
samp = rep(NA, m)
for (i in 1:m) {
samp[i] = mean(rlnorm(n, mean=0, sd=0.5))
}
hist(samp, col='orange', probability=T, breaks=25, main='sample size = 300')
x = seq(1, 1.25, 0.005)
lines(x, dnorm(x, mean=mean(samp), sd=sd(samp)))