Questa è una domanda successiva a ciò che Frank Harrell ha scritto qui :
Nella mia esperienza, la dimensione del campione richiesta affinché la distribuzione t sia accurata è spesso maggiore della dimensione del campione a portata di mano. Il test dei ranghi firmati Wilcoxon è estremamente efficiente, come hai detto, ed è robusto, quindi quasi sempre lo preferisco al test t
Se lo capisco correttamente - quando si confronta la posizione di due campioni senza eguali, preferiremmo usare il test di somma dei ranghi di Wilcoxon rispetto al test t spaiato, se le nostre dimensioni del campione sono piccole.
Esiste una situazione teorica in cui preferiremmo il test di somma dei ranghi di Wilcoxon rispetto al test t spaiato, anche se le dimensioni del campione dei nostri due gruppi sono relativamente grandi?
La mia motivazione per questa domanda deriva dall'osservazione che per un singolo test t di un campione, usarlo per un campione non così piccolo di una distribuzione distorta produrrà un errore di tipo I sbagliato:
n1 <- 100
mean1 <- 50
R <- 100000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
y1 <- rexp(n1, 1/mean1)
P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572 # "wrong" type I error