Quando utilizzare il test di somma dei ranghi di Wilcoxon invece del test t spaiato?


26

Questa è una domanda successiva a ciò che Frank Harrell ha scritto qui :

Nella mia esperienza, la dimensione del campione richiesta affinché la distribuzione t sia accurata è spesso maggiore della dimensione del campione a portata di mano. Il test dei ranghi firmati Wilcoxon è estremamente efficiente, come hai detto, ed è robusto, quindi quasi sempre lo preferisco al test t

Se lo capisco correttamente - quando si confronta la posizione di due campioni senza eguali, preferiremmo usare il test di somma dei ranghi di Wilcoxon rispetto al test t spaiato, se le nostre dimensioni del campione sono piccole.

Esiste una situazione teorica in cui preferiremmo il test di somma dei ranghi di Wilcoxon rispetto al test t spaiato, anche se le dimensioni del campione dei nostri due gruppi sono relativamente grandi?

La mia motivazione per questa domanda deriva dall'osservazione che per un singolo test t di un campione, usarlo per un campione non così piccolo di una distribuzione distorta produrrà un errore di tipo I sbagliato:

n1 <- 100
mean1 <- 50
R <- 100000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
    y1 <- rexp(n1, 1/mean1)
    P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572  # "wrong" type I error

1
Per me, 0,0572 sembra abbastanza vicino a 0,05.
mark999

Ciao Marco - se condotto sotto la ripetizione di 100000 dell'ipotesi nulla, non ci aspettiamo di ottenere questo livello di differenza da 0,05. Generalmente ci aspetteremmo una differenza di più meno qualcosa come due volte di sqrt (0,05 * 0,95 / 100000) da 0,05
Tal Galili

1
Sono d'accordo che non è corretto. Volevo solo dire che sembra abbastanza vicino per scopi pratici.
mark999

1
Una domanda correlata: come scegliere tra test t o test non parametrico, ad es. Wilcoxon in piccoli campioni , che considera sia test accoppiati che non accoppiati, nonché alternative a Wilcoxon come Brunner-Munzel. C'è anche un'eccellente risposta di Frank Harrell che spiega perché si sente giustificato nel suo approccio in modo più dettagliato dell'estratto sopra (ad esempio l'importanza dell'invarianza dei ranghi sotto trasformazione monotonica).
Silverfish

H0:μ=50

Risposte:


23

Si C'è. Ad esempio, qualsiasi campionamento da distribuzioni con varianza infinita annullerà il test t, ma non il Wilcoxon. Facendo riferimento ai metodi statistici non parametrici (Hollander e Wolfe), vedo che l'efficienza relativa asintotica (ARE) del Wilcoxon rispetto al test t è 1.0 per la distribuzione Uniforme, 1.097 (ovvero Wilcoxon è migliore) per la Logistica, 1.5 per il doppio esponenziale (Laplace) e 3.0 per l'esponenziale.

Hodges e Lehmann hanno dimostrato che l'ARE minimo del Wilcoxon rispetto a qualsiasi altro test è 0,864, quindi non si può mai perdere più del 14% circa di efficienza utilizzandolo rispetto a qualsiasi altra cosa. (Naturalmente, questo è un risultato asintotico.) Di conseguenza, l'uso di Frank Harrell del Wilcoxon come default dovrebbe probabilmente essere adottato da quasi tutti, incluso me stesso.

Modifica: rispondendo alla domanda di follow-up nei commenti, per coloro che preferiscono gli intervalli di confidenza, lo stimatore di Hodges-Lehmann è lo stimatore che "corrisponde" al test di Wilcoxon e gli intervalli di confidenza possono essere costruiti attorno a quello.


1
Esiste un modo semplice per ottenere un intervallo di confidenza se si utilizza il test Wilcoxon? Sembra incoraggiare le persone a porre troppa enfasi sul valore p, anche più di quanto farebbero con un metodo parametrico.
mark999

Sì, lo stimatore di Hodges-Lehmann è lo stimatore rilevante e ho modificato il corpo della risposta in modo che i futuri lettori non debbano passare attraverso i commenti.
jbowman,

Grazie gomito. Non ho familiarità con lo stimatore di Hodges-Lehmann, ma vedrò cosa posso scoprire al riguardo.
mark999

3
biostat.mc.vanderbilt.edu/WilcoxonSoftware mostra come usare R per ottenere la stima di Hodges-Lehmann e il suo intervallo di confidenza.
Frank Harrell,

1
(+1) da un tradizionalista anti-rango. Tuttavia, una sfida per i test di rango è che l'ipotesi è vaga. Generalmente non è la stessa ipotesi del test t. Il test t verifica sempre una differenza media, Wilcoxon verifica una differenza media ponderata. Certamente se la differenza media rango è statisticamente significativa, sappiamo che le distribuzioni devono differire, anche se i loro mezzi sono gli stessi. Nessuno dei due test è alimentato per rilevare differenze distributive in tutti i casi. Lo dico solo perché preferisco l'interpretazione. (1/2)
AdamO

24

Lascia che ti riporti alla nostra discussione nei commenti a questa tua domanda. Il test di somma dei ranghi di Wilcoxon è equivalente al test U di Mann-Whitney (e la sua estensione diretta per più di due campioni si chiama test di Kruskal-Wallis). In Wikipedia e in questo testo puoi vedere che Mann-Whitney (o Kruskal-Wallis) generalmente non confronta mezzi o mediane. Confronta la prevalenza complessiva di valori: quale dei campioni è "stocasticamente maggiore". Il test è senza distribuzione. Il test T confronta i mezzi. Presuppone una distribuzione normale. Quindi, i test si basano su diverse ipotesi. Nella maggior parte dei casi, non prevediamo di confrontare specificamente i mezzi, piuttosto, vogliamo sapere quale campione è maggiore di valori e rende Mann-Whitney il test predefinito per noi. D'altra parte, quando entrambe le distribuzioni sono simmetriche, il compito di verificare se un campione è "maggiore" dell'altro degenera nel compito di confrontare i due mezzi, e quindi, se le distribuzioni sono normali con varianze uguali, il t-test diventa in qualche modo più potente.


+1 per ricollegare la tua risposta al significato delle ipotesi in esame.
Josh Hemann,

Con "quale dei campioni è" stocasticamente maggiore "", vuoi dire "quale dei campioni assume generalmente valori maggiori rispetto all'altro"? In caso contrario, cosa intendi? Potresti approfondire un po 'di più, per favore?
Erdogan CEVHER,

1
@Erdogan, sì, possiamo dire come hai detto. La formulazione rigorosa è questa: in una coppia di oggetti scelti casualmente, uno per ciascun campione, l'oggetto del campione "stocasticamente più dominante" sarà più elevato (in base al valore) rispetto all'oggetto dell'altro campione con probabilità> 0,5.
ttnphns
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.