Come scegliere tra test t o test non parametrico, ad es. Wilcoxon in piccoli campioni


96

Alcune ipotesi possono essere verificate utilizzando il test t di Student (forse usando la correzione di Welch per varianze disuguali nel caso di due campioni), oppure mediante un test non parametrico come il test di rango firmato firmato Wilcoxon, il test U di Wilcoxon-Mann-Whitney, o il test del segno associato. Come possiamo prendere una decisione di principio su quale test è più appropriato, in particolare se la dimensione del campione è "piccola"?

Molti libri di testo introduttivi e appunti di lezioni forniscono un approccio a "diagramma di flusso" in cui la normalità viene controllata (o - inavvertitamente - mediante test di normalità o, più in generale, da un diagramma QQ o simile) per decidere tra un test t- test o non parametrico. Per il spaiato due campioni t -test ci può essere un ulteriore controllo di omogeneità della varianza per decidere se applicare la correzione di Welch. Un problema con questo approccio è il modo in cui la decisione su quale test applicare dipende dai dati osservati e in che modo ciò influisce sulle prestazioni (potenza, tasso di errore di tipo I) del test selezionato.

Un altro problema è quanto sia difficile controllare la normalità nei piccoli set di dati: i test formali hanno un basso consumo, quindi è possibile che le violazioni non vengano rilevate, ma problemi simili si applicano al controllo dei dati su un diagramma QQ. Persino violazioni eclatanti potrebbero non essere rilevate, ad esempio se la distribuzione è mista ma non sono state tratte osservazioni da un componente della miscela. A differenza della grande , non possiamo appoggiarci alla rete di sicurezza del teorema del limite centrale e alla normalità asintotica della statistica del test e della distribuzione t .n

Una risposta di principio è la "sicurezza prima di tutto": senza alcun modo di verificare in modo affidabile l'assunzione della normalità in un piccolo campione, attenersi a metodi non parametrici. Un altro è considerare qualsiasi motivo per assumere la normalità, teoricamente (ad esempio variabile è la somma di più componenti casuali e si applica il CLT) o empiricamente (ad esempio studi precedenti con più grandi suggeriscono che la variabile è normale) e usare un test t solo se esistono tali motivi . Ma questo di solito giustifica solo la normalità approssimativa , e su bassi gradi di libertà è difficile giudicare quanto deve essere quasi normale per evitare di invalidare un test t .n

La maggior parte delle guide alla scelta di un test t o non parametrico si concentra sul problema della normalità. Ma piccoli campioni sollevano anche alcuni problemi collaterali:

  • Se si esegue un test t "campioni non correlati" o "non accoppiati", se utilizzare una correzione Welch ? Alcune persone usano un test di ipotesi per l'uguaglianza delle varianze, ma qui avrebbe un basso potere; altri controllano se le SD sono "ragionevolmente" vicine o meno (secondo vari criteri). È più semplice utilizzare sempre la correzione Welch per piccoli campioni, a meno che non ci siano buone ragioni per ritenere che le variazioni della popolazione siano uguali?

  • Se vedi la scelta dei metodi come un compromesso tra potenza e robustezza, le affermazioni sull'efficienza asintotica dei metodi non parametrici sono inutili . La regola empirica secondo cui "i test di Wilcoxon hanno circa il 95% della potenza di un test t se i dati sono davvero normali e sono spesso molto più potenti se i dati non lo sono, quindi basta usare un Wilcoxon" viene talvolta ascoltata, ma se il 95% si applica solo a grandi , questo è un ragionamento errato per campioni più piccoli.n

  • Piccoli campioni possono rendere molto difficile, o impossibile, valutare se una trasformazione sia appropriata per i dati poiché è difficile stabilire se i dati trasformati appartengono a una distribuzione (sufficientemente) normale. Quindi, se un diagramma QQ rivela dati molto distorti, che sembrano più ragionevoli dopo aver preso i registri, è sicuro usare un test t sui dati registrati? Su campioni più grandi questo sarebbe molto allettante, ma con piccoli probabilmente mi terrei a meno che non ci fossero motivi per aspettarsi una distribuzione log-normale in primo luogo.n

  • Che dire del controllo delle ipotesi per i non parametrici? Alcune fonti raccomandano di verificare una distribuzione simmetrica prima di applicare un test di Wilcoxon (trattandolo come un test per la localizzazione piuttosto che per il dominio stocastico), che pone problemi simili al controllo della normalità. Se il motivo per cui stiamo applicando un test non parametrico in primo luogo è una cieca obbedienza al mantra della "sicurezza prima di tutto", allora la difficoltà di valutare l'asimmetria da un piccolo campione ci porterebbe apparentemente alla potenza inferiore di un test del segno accoppiato .

Tenendo conto di questi problemi di piccolo campione, esiste una buona procedura, si spera citabile, da seguire quando si decide tra i test t e non parametrici?

Ci sono state diverse risposte eccellenti, ma sarebbe gradita anche una risposta che consideri altre alternative ai test di classificazione, come i test di permutazione.


2
Dovrei spiegare quale potrebbe essere un "metodo per scegliere un test": i testi introduttivi usano spesso diagrammi di flusso. Per i dati non accoppiati, forse: "1. Utilizzare un metodo per verificare se entrambi i campioni sono normalmente distribuiti (se non andare a 3), 2. Utilizzare un metodo per verificare le differenze non uguali: in tal caso, eseguire un test t a due campioni con La correzione di Welch, in caso contrario, viene eseguita senza correzione. 3. Prova a trasformare i dati in normalità (se le opere vanno a 2, altrimenti vai a 4). 4. Esegui invece il test U (possibilmente dopo aver verificato varie ipotesi). " Ma molti di questi passaggi sembrano insoddisfacenti per la piccola n, come spero che la mia Q spieghi!
Silverfish,

2
Domanda interessante (+1) e una mossa coraggiosa per creare una taglia. In attesa di risposte interessanti. A proposito, ciò che vedo spesso applicato nel mio campo è un test di permutazione (invece del test t o di Mann-Whitney-Wilcoxon). Immagino che potrebbe essere considerato anche un degno contendente. A parte questo, non hai mai specificato cosa si intende per "piccola dimensione del campione".
ameba,

1
@Alexis Molti libri sostengono che il test di Wilcoxon presuppone una simmetria sulla mediana, almeno se i risultati sono visti come un'affermazione sulla posizione (alcuni raccomandano un diagramma a scatole da controllare: vedi la mia discussione con Glen sopra / la risposta di Frank Harrell sotto per i pericoli di multistep procedura). Inoltre alcune fonti affermano che la Wilcoxon-Mann-Whitney U presume che le distribuzioni di gruppo differiscano solo per traduzione (e suggeriscono un controllo visivo su istogrammi o CDF empirici). Un sig. Il test U può essere dovuto a distribuzioni di forme diverse anche se le mediane sono uguali. Vedi anche articoli citati nei commenti sotto la risposta di Frank Harrell.
Silverfish,

3
@Silverfish "se i risultati sono visti come un'affermazione sulla posizione" Questo è un avvertimento importante, poiché questi test sono generalmente affermazioni sulle prove per H . Fare ipotesi distributive aggiuntive restringe la portata dell'inferenza (ad esempio i test per la differenza mediana), ma non sono generalmente requisiti per i test. 0:P(XA>XB)=0.5
Alexis,

2
Potrebbe valere la pena di scoprire quanto sia "imperfetto" il ragionamento "Potenza del 95% per il Wilcoxon" per piccoli campioni (in parte dipende da cosa, esattamente, si fa e da quanto è piccolo). Se, ad esempio, sei felice di condurre test al 5,5% anziché al 5%, nel caso in cui sia il livello di significatività più adatto adatto più vicino, la potenza tende spesso a resistere abbastanza bene. Naturalmente una volta, nella fase di "calcolo della potenza" prima di raccogliere i dati, è possibile capire quali possano essere le circostanze e avere un'idea delle proprietà del Wilcoxon nelle dimensioni del campione che si sta prendendo in considerazione.
Glen_b,

Risposte:


67

Ho intenzione di cambiare l'ordine delle domande.

Ho trovato libri di testo e appunti delle lezioni spesso in disaccordo e vorrei che un sistema operasse la scelta che può essere tranquillamente raccomandata come migliore pratica, e in particolare un libro di testo o un documento a cui si può citare.

Sfortunatamente, alcune discussioni su questo problema nei libri e così via si basano sulla saggezza ricevuta. A volte quella saggezza ricevuta è ragionevole, a volte lo è di meno (almeno nel senso che tende a concentrarsi su un problema più piccolo quando un problema più grande viene ignorato); dovremmo esaminare con cura le giustificazioni offerte per la consulenza (se viene fornita una giustificazione).

La maggior parte delle guide alla scelta di un test t o non parametrico si concentra sul problema della normalità.

È vero, ma è in qualche modo fuorviato per diversi motivi che mi rivolgo in questa risposta.

Se si esegue un test t "campioni non correlati" o "non accoppiati", se utilizzare una correzione Welch?

Questo (per usarlo a meno che tu non abbia motivo di pensare che le varianze dovrebbero essere uguali) è il consiglio di numerosi riferimenti. Ne indico alcuni in questa risposta.

Alcune persone usano un test di ipotesi per l'uguaglianza delle varianze, ma qui avrebbe un basso potere. Generalmente ho solo un occhio sul fatto che le SD di esempio siano "ragionevolmente" vicine o meno (il che è in qualche modo soggettivo, quindi ci deve essere un modo più semplice di farlo) ma, di nuovo, con un basso n potrebbe essere che le SD di popolazione siano piuttosto più avanti a parte quelli di esempio.

È più semplice utilizzare sempre la correzione Welch per piccoli campioni, a meno che non ci siano buone ragioni per ritenere che le variazioni della popolazione siano uguali? Questo è il consiglio. Le proprietà dei test sono influenzate dalla scelta basata sul test di ipotesi.

Alcuni riferimenti su questo possono essere visti qui e qui , anche se ci sono altri che dicono cose simili.

Il problema delle pari varianze ha molte caratteristiche simili al problema della normalità - le persone vogliono testarlo, i consigli suggeriscono che condizionare la scelta dei test sui risultati dei test può influenzare negativamente i risultati di entrambi i tipi di test successivi - è meglio semplicemente non assumere ciò che non è possibile giustificare adeguatamente (ragionando sui dati, usando le informazioni di altri studi relative alle stesse variabili e così via).

Tuttavia, ci sono differenze. Uno è che - almeno in termini di distribuzione della statistica test sotto l'ipotesi nulla (e quindi la sua solidità di livello) - la non normalità è meno importante in grandi campioni (almeno per quanto riguarda il livello di significatività, sebbene il potere potrebbe continua a essere un problema se devi trovare piccoli effetti), mentre l'effetto di varianze disuguali sotto l'ipotesi della varianza uguale non scompare in realtà con grandi dimensioni del campione.

Quale metodo di principio può essere raccomandato per scegliere qual è il test più appropriato quando la dimensione del campione è "piccola"?

Con i test di ipotesi, ciò che conta (in alcune condizioni) è principalmente due cose:

  • Qual è il tasso di errore effettivo di tipo I?

  • Com'è il comportamento del potere?

Dobbiamo anche tenere presente che se stiamo confrontando due procedure, la modifica della prima cambierà la seconda (ovvero, se non vengono condotte allo stesso livello di significatività effettiva, ci si aspetterebbe che un più elevato sia associato a potenza superiore).α

Tenendo conto di questi problemi di piccolo campione, esiste una buona lista di controllo - si spera citabile - da esaminare quando si decide tra test te parametrici?

Prenderò in considerazione una serie di situazioni in cui farò alcune raccomandazioni, considerando sia la possibilità di non-normalità che le disparità di disparità. In ogni caso, menzionare il test t per implicare il test Welch:

  • n medio-grande

Non normale (o sconosciuto), probabilmente con una varianza quasi uguale:

Se la distribuzione è a coda pesante, in genere starai meglio con un Mann-Whitney, anche se se è solo leggermente pesante, il test t dovrebbe andare bene. Con code leggere il test t può (spesso) essere preferito. I test di permutazione sono una buona opzione (puoi anche fare un test di permutazione usando una statistica t se sei così propenso). I test Bootstrap sono anche adatti.

Varianza non normale (o sconosciuta), disuguale (o relazione di varianza sconosciuta):

Se la distribuzione è pesante, in genere si andrà meglio con un Mann-Whitney - se la disuguaglianza di varianza è correlata solo alla disuguaglianza della media - cioè se H0 è vero, anche la differenza di diffusione dovrebbe essere assente. Le GLM sono spesso una buona opzione, specialmente se c'è disordine e la diffusione è correlata alla media. Un test di permutazione è un'altra opzione, con un avvertimento simile a quello dei test basati sul rango. I test Bootstrap sono una buona possibilità qui.

Zimmerman e Zumbo (1993) suggeriscono un test di Welch-t sui ranghi che si dice faccia meglio del Wilcoxon-Mann-Whitney nei casi in cui le varianze sono ineguali.[1]

  • n moderatamente piccolo

i test di rango sono valori predefiniti ragionevoli se ci si aspetta una non normalità (di nuovo con l'avvertenza di cui sopra). Se disponi di informazioni esterne su forma o varianza, potresti prendere in considerazione GLM. Se ti aspetti che le cose non siano troppo lontane dalla norma, i test t potrebbero andare bene.

  • n molto piccolo

A causa del problema con l'ottenimento di adeguati livelli di significatività, né i test di permutazione né i test di rango possono essere adatti e, alle dimensioni più ridotte, un test t può essere l'opzione migliore (c'è qualche possibilità di rafforzarlo leggermente). Tuttavia, c'è un buon argomento per usare tassi di errore di tipo I più alti con piccoli campioni (altrimenti si lasceranno gonfiare i tassi di errore di tipo II mantenendo costanti i tassi di errore di tipo I). Vedi anche de Winter (2013) .[2]

Il consiglio deve essere in qualche modo modificato quando le distribuzioni sono entrambe fortemente distorte e molto discrete, come gli elementi in scala di Likert in cui la maggior parte delle osservazioni si trovano in una delle categorie finali. Quindi Wilcoxon-Mann-Whitney non è necessariamente una scelta migliore rispetto al test t.

La simulazione può aiutare a guidare ulteriormente le scelte quando si dispone di alcune informazioni su circostanze probabili.

Apprezzo che questo sia un argomento perenne, ma la maggior parte delle domande riguardano il particolare set di dati dell'interrogatore, a volte una discussione più generale sul potere e, occasionalmente, cosa fare se due test non sono d'accordo, ma vorrei una procedura per scegliere il test corretto in il primo posto!

Il problema principale è quanto sia difficile controllare l'assunzione di normalità in un piccolo set di dati:

Si è difficile controllare la normalità in un piccolo set di dati, e in qualche misura questo è un problema importante, ma penso che ci sia un altro problema di importanza che dobbiamo considerare. Un problema di base è che il tentativo di valutare la normalità come base per la scelta tra i test influisce negativamente sulle proprietà dei test tra cui si sceglie.

Qualsiasi test formale per la normalità avrebbe un basso potere, quindi le violazioni potrebbero non essere rilevate. (Personalmente non testerei per questo scopo, e chiaramente non sono solo, ma ho trovato questo piccolo uso quando i clienti richiedono un test di normalità da eseguire perché è quello che hanno trovato una volta il loro libro di testo o vecchi appunti di lezione o qualche sito Web dichiarare dovrebbe essere fatto. Questo è un punto in cui sarebbe gradita una citazione dall'aspetto più pesante.)

Ecco un esempio di riferimento (ce ne sono altri) che è inequivocabile (Fay e Proschan, 2010 ):[3]

La scelta tra i DR t- e WMW non dovrebbe basarsi su un test di normalità.

Allo stesso modo sono inequivocabili sul non testare l'uguaglianza di varianza.

A peggiorare le cose, non è sicuro utilizzare il Teorema del limite centrale come rete di sicurezza: per i piccoli n non possiamo fare affidamento sulla comoda normalità asintotica della statistica del test e della distribuzione t.

Né in grandi campioni - la normalità asintotica del numeratore non implica che la statistica t avrà una distribuzione t. Tuttavia, ciò potrebbe non importare molto, dal momento che dovresti comunque avere una normalità asintotica (ad esempio CLT per il numeratore e il teorema di Slutsky suggeriscono che alla fine la statistica t dovrebbe iniziare a sembrare normale, se le condizioni per entrambi valgono.)

Una risposta di principio è la "sicurezza prima di tutto": poiché non è possibile verificare in modo affidabile l'assunto di normalità su un piccolo campione, eseguire invece un test non parametrico equivalente.

Questo è in realtà il consiglio che danno i riferimenti di cui parlo (o il link alle citazioni).

Un altro approccio che ho visto ma con cui mi sento meno a mio agio è quello di eseguire un controllo visivo e procedere con un test t se non si osserva nulla di spiacevole ("nessun motivo per rifiutare la normalità", ignorando la bassa potenza di questo controllo). La mia inclinazione personale è quella di considerare se ci sono motivi per assumere la normalità, teorica (ad es. Variabile è la somma di più componenti casuali e si applica il CLT) o empirica (ad es. Studi precedenti con n più grandi suggeriscono che la variabile è normale).

Entrambi sono buoni argomenti, specialmente se supportati dal fatto che il test t è ragionevolmente robusto contro deviazioni moderate dalla normalità. (Bisogna tenere presente, tuttavia, che "deviazioni moderate" è una frase complicata; alcuni tipi di deviazioni dalla normalità possono influire un po 'sulle prestazioni di potenza del test t anche se tali deviazioni sono visivamente molto piccole - il t- il test è meno robusto per alcune deviazioni rispetto ad altri. Dovremmo tenerlo a mente ogni volta che discutiamo di piccole deviazioni dalla normalità.)

Attenzione, tuttavia, la frase "suggerisce che la variabile è normale". Essere ragionevolmente coerenti con la normalità non è la stessa cosa della normalità. Spesso possiamo rifiutare la normale normalità senza che sia necessario nemmeno vedere i dati, ad esempio se i dati non possono essere negativi, la distribuzione non può essere normale. Fortunatamente, ciò che conta è più vicino a ciò che potremmo effettivamente avere da precedenti studi o ragionamenti su come sono composti i dati, ovvero che le deviazioni dalla normalità dovrebbero essere piccole.

In tal caso, utilizzerei un test t se i dati superassero l'ispezione visiva, e altrimenti attenerei ai non parametrici. Ma qualsiasi motivo teorico o empirico di solito giustifica solo l'assunzione di una normalità approssimativa, e su bassi gradi di libertà è difficile giudicare quanto vicino debba essere normale per evitare di invalidare un test t.

Bene, questo è qualcosa di cui possiamo valutare l'impatto abbastanza facilmente (ad esempio tramite simulazioni, come ho già detto in precedenza). Da quello che ho visto, l'asimmetria sembra importare più delle code pesanti (ma d'altra parte ho visto alcune affermazioni del contrario, anche se non so su cosa si basa).

Per le persone che vedono la scelta dei metodi come un compromesso tra potenza e robustezza, le affermazioni sull'efficienza asintotica dei metodi non parametrici sono inutili. Ad esempio, la regola empirica secondo cui "i test di Wilcoxon hanno circa il 95% della potenza di un test t se i dati sono davvero normali e sono spesso molto più potenti se i dati non lo sono, quindi basta usare un Wilcoxon" è a volte sentito, ma se il 95% si applica solo a n grandi, questo è un ragionamento errato per campioni più piccoli.

Ma possiamo controllare la potenza di piccoli campioni abbastanza facilmente! È abbastanza facile da simulare per ottenere curve di potenza come qui .
(Ancora una volta, vedi anche de Winter (2013) ).[2]

Avendo effettuato tali simulazioni in una varietà di circostanze, sia per i casi a due campioni che per un campione / differenza accoppiata, la piccola efficienza del campione al normale in entrambi i casi sembra essere leggermente inferiore all'efficienza asintotica, ma l'efficienza del livello firmato e i test di Wilcoxon-Mann-Whitney sono ancora molto elevati anche a campioni di dimensioni molto ridotte.

Almeno questo è se i test vengono eseguiti allo stesso livello di significatività effettiva; non puoi fare un test del 5% con campioni molto piccoli (e almeno non senza test randomizzati per esempio), ma se sei pronto a fare forse (diciamo) un test del 5,5% o un 3,2%, allora i test di rango reggersi davvero molto bene rispetto a un test t a quel livello di significatività.

Piccoli campioni possono rendere molto difficile, o impossibile, valutare se una trasformazione sia appropriata per i dati poiché è difficile stabilire se i dati trasformati appartengano a una distribuzione (sufficientemente) normale. Quindi, se un diagramma QQ rivela dati molto distorti, che sembrano più ragionevoli dopo aver preso i registri, è sicuro usare un test t sui dati registrati? Su campioni più grandi questo sarebbe molto allettante, ma con piccoli n probabilmente mi terrei a meno che non ci fossero motivi per aspettarsi una distribuzione log-normale in primo luogo.

C'è un'altra alternativa: fare una diversa ipotesi parametrica. Ad esempio, se ci sono dati distorti, si potrebbe, ad esempio, in alcune situazioni ragionevolmente considerare una distribuzione gamma, o qualche altra famiglia distorta come una migliore approssimazione - in campioni moderatamente grandi, potremmo semplicemente usare un GLM, ma in campioni molto piccoli potrebbe essere necessario guardare ad un test di piccolo campione - in molti casi la simulazione può essere utile.

Alternativa 2: rinforzare il test t (ma prestando attenzione alla scelta di una procedura robusta in modo da non discretizzare pesantemente la risultante distribuzione della statistica del test) - questo presenta alcuni vantaggi rispetto a una procedura non parametrica a piccolissimo campione come la capacità considerare i test con un basso tasso di errore di tipo I.

Qui sto pensando sulla falsariga di usare, per esempio, stimatori di posizione M (e relativi stimatori di scala) nella statistica t per rinforzare senza problemi contro le deviazioni dalla normalità. Qualcosa di simile al Welch, come:

xySp

dove e , ecc. sono rispettivamente stime affidabili di posizione e scala.Sp2=sx2nx+sy2nyxsx

Vorrei ridurre la tendenza della statistica alla discrezione, quindi eviterei cose come il taglio e il Winsorizing, poiché se i dati originali fossero discreti, il taglio, ecc., Aggraverebbe questo; usando approcci di tipo M con stima con una funzione regolare si ottengono effetti simili senza contribuire alla discrezione. Tieni presente che stiamo cercando di affrontare la situazione in cui è davvero molto piccola (circa 3-5, in ogni campione, diciamo), quindi anche la stima M potenzialmente ha i suoi problemi.ψn

Ad esempio, potresti usare la simulazione al normale per ottenere valori p (se le dimensioni del campione sono molto piccole, suggerirei che nel bootstrap - se le dimensioni del campione non sono così piccole, un bootstrap implementato con cura potrebbe fare abbastanza bene , ma potremmo anche tornare a Wilcoxon-Mann-Whitney). C'è un fattore di ridimensionamento e un aggiustamento del df per arrivare a ciò che immagino sarebbe quindi una ragionevole approssimazione a t. Ciò significa che dovremmo ottenere il tipo di proprietà che cerchiamo molto vicino alla normalità e dovremmo avere una ragionevole robustezza nelle ampie vicinanze della normale. Vi sono una serie di questioni che emergerebbero al di fuori dell'ambito della presente domanda, ma ritengo che in campioni molto piccoli i benefici dovrebbero superare i costi e lo sforzo supplementare richiesto.

[Non leggo la letteratura su queste cose da molto tempo, quindi non ho riferimenti adatti da offrire su quel punteggio.]

Ovviamente se non ti aspettavi che la distribuzione fosse in qualche modo normale, ma piuttosto simile a qualche altra distribuzione, potresti intraprendere un'adeguata fortificazione di un diverso test parametrico.

Cosa succede se si desidera verificare i presupposti per i non parametrici? Alcune fonti raccomandano di verificare una distribuzione simmetrica prima di applicare un test di Wilcoxon, che presenta problemi simili al controllo della normalità.

Infatti. Presumo che intendi il test di rango firmato *. Nel caso di utilizzarlo su dati accoppiati, se si è pronti a supporre che le due distribuzioni abbiano la stessa forma a parte lo spostamento di posizione, si è al sicuro, poiché le differenze dovrebbero essere simmetriche. In realtà, non abbiamo nemmeno bisogno di così tanto; affinché il test funzioni, è necessaria la simmetria sotto il valore null; non è richiesto in alternativa (ad esempio si consideri una situazione accoppiata con distribuzioni continue inclinate a destra identiche sulla semiretta positiva, in cui le scale differiscono in alternativa ma non in null; il test di classificazione firmato dovrebbe funzionare essenzialmente come previsto in questo caso). L'interpretazione del test è più semplice se l'alternativa è un cambio di posizione.

* (Il nome di Wilcoxon è associato a uno e due test di rango campione: rango e somma di rango firmati; con il loro test U, Mann e Whitney hanno generalizzato la situazione studiata da Wilcoxon e hanno introdotto nuove importanti idee per valutare la distribuzione nulla, ma il la priorità tra i due gruppi di autori su Wilcoxon-Mann-Whitney è chiaramente quella di Wilcoxon - quindi almeno se consideriamo Wilcoxon vs Mann & Whitney, Wilcoxon è al primo posto nel mio libro, tuttavia sembra che Stigler's Law mi batte ancora una volta, e Wilcoxon dovrebbe forse condividere una parte di quella priorità con un numero di collaboratori precedenti e (oltre a Mann e Whitney) dovrebbe condividere il credito con diversi scopritori di un test equivalente. [4] [5])

Riferimenti

[1]: Zimmerman DW e Zumbo BN, (1993),
Trasformazioni di rango e potenza del test t di Student e test t di Welch per popolazioni non normali,
Canadian Journal Experimental Psychology, 47 : 523–39.

[2]: JCF de Winter (2013),
"Utilizzo del test t di Student con campioni estremamente piccoli,"
Valutazione pratica, ricerca e valutazione , 18 : 10, agosto, ISSN 1531-7714
http://pareonline.net/ getvn.asp? v = 18 & n = 10

[3]: Michael P. Fay e Michael A. Proschan (2010),
"Wilcoxon-Mann-Whitney o t-test? Su ipotesi per test di ipotesi e interpretazioni multiple delle regole di decisione",
Stat Surv ; 4 : 1–39.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/

[4]: Berry, KJ, Mielke, PW e Johnston, JE (2012),
"Il test di somma dei ranghi a due campioni: sviluppo precoce",
giornale elettronico per la storia della probabilità e delle statistiche , Vol.8, dicembre
pdf

[5]: Kruskal, WH (1957),
"Note storiche sul Wilcoxon non accoppiato test a due campioni",
Journal of American Statistical Association , 52 , 356–360.


Un paio di cose su cui vorrei chiarimenti. Ci sono diversi punti in cui si menziona, ad esempio, "Se la distribuzione è a coda pesante, ..." (o inclinata, ecc.) - presumibilmente questo dovrebbe essere letto come "se è ragionevole supporre che la distribuzione sarà a coda pesante" (dalla teoria / studi precedenti / qualunque cosa) piuttosto che "se il campione ha una coda pesante", altrimenti torniamo di nuovo ai test in più fasi che cosa stiamo cercando di evitare? (Mi sembra che un problema centrale in questo argomento sia come giustificare credenze o ipotesi sulle distribuzioni, senza leggere troppo l'esempio.)
Silverfish

Sì, questo dovrebbe essere inteso come "la popolazione è nota per essere a coda pesante, o può ragionevolmente prevedere che sia a coda pesante". Ciò include certamente cose come la teoria (o talvolta persino un ragionamento generale sulla situazione che non raggiunge del tutto lo stato della teoria ), la conoscenza di esperti e studi precedenti. Non sta suggerendo test per la coda pesante. In situazioni in cui è semplicemente sconosciuto, potrebbe valere la pena indagare su come potrebbero essere le cose brutte sotto varie distribuzioni che potrebbero essere plausibili per la situazione specifica che hai.
Glen_b,

Qualche possibilità che questa risposta già eccellente possa incorporare qualche dettaglio in più su quali opzioni ci potrebbero essere per "rinforzare" il test t?
Silverfish,

Silverfish - Non sono sicuro di aver sufficientemente affrontato la tua domanda chiedendo dettagli sulla robustezza. Aggiungerò un po 'di più ora.
Glen_b,

Mille grazie per l'aggiunta, ho pensato che aggiungesse molto alla qualità di questa risposta. Ora questa domanda si è risolta un po 'e ha generato una buona serie di risposte, vorrei dare alla domanda originale una buona copia-modifica e rimuovere tutto ciò che potrebbe essere fuorviante (a beneficio dei lettori che non leggono il passato la domanda!). Va bene quando lo faccio per fare le modifiche appropriate alla tua risposta in modo che le virgolette corrispondano alla domanda riorganizzata?
Silverfish,

22

A mio avviso, l'approccio di principio riconosce che (1) i test e le valutazioni grafiche della normalità hanno una sensibilità insufficiente e l'interpretazione dei grafici spesso non è obiettiva, (2) le procedure a più fasi hanno caratteristiche operative incerte, (3) molti test non parametrici hanno eccellenti caratteristiche operative in situazioni in cui i test parametrici hanno una potenza ottimale e (4) la corretta trasformazione di non è generalmente la funzione di identità e non parametricoYk- i test di esempio sono invarianti rispetto alla trasformazione scelta (non così per i test di un campione come il test di rango firmato Wilcoxon). Per quanto riguarda (2), le procedure a più fasi sono particolarmente problematiche in settori come lo sviluppo di farmaci in cui agenzie di supervisione come la FDA sono giustamente preoccupate per la possibile manipolazione dei risultati. Ad esempio, un ricercatore senza scrupoli potrebbe convenientemente dimenticare di segnalare il test di normalità se il test risulta in un valore basso .tP

Mettendo tutto questo insieme, alcune indicazioni suggerite sono le seguenti:

  1. Se non esiste un motivo convincente per assumere una distribuzione gaussiana prima di esaminare i dati e non è necessario alcun aggiustamento della covariata, utilizzare un test non parametrico.
  2. Se è necessario un aggiustamento della covariata, utilizzare la generalizzazione della regressione semiparametrica del test di rango che si preferisce. Per il test di Wilcoxon questo è il modello di probabilità proporzionale e per un normale test di punteggi è una regressione ordinaria probit.

Queste raccomandazioni sono abbastanza generali, sebbene il chilometraggio possa variare per determinate dimensioni di campioni di piccole dimensioni. Ma sappiamo che per campioni più grandi l'efficienza relativa del test Wilcoxon a 2 campioni e dei test di rango firmati rispetto al test (se la varianza uguale vale nel caso a 2 campioni) è e che l'efficienza relativa dei test di rango è spesso molto maggiore di 1,0 quando la distribuzione gaussiana non regge. Per me, la perdita di informazioni utilizzando i test di rango è molto piccola rispetto alla possibili guadagni, robustezza, e la libertà dal dover specificare la trasformazione di .t3πY

I test non parametrici possono funzionare bene anche se i loro presupposti di ottimalità non sono soddisfatti. Per il problema -sample, i test di classificazione non fanno ipotesi sulla distribuzione per un dato gruppo; fanno solo ipotesi su come le distribuzioni dei gruppi sono collegate tra loro, se si richiede che il test sia ottimale. Per un modello ordinale di probabilità cumulativa link si presume che le distribuzioni siano in rischi proporzionali. Per un modello di probabilità cumulativa di collegamento logit (modello di probabilità proporzionale), si presume che le distribuzioni siano collegate dalle ipotesi di probabilità proporzionale, vale a dire, i logit delle funzioni di distribuzione cumulativa sono paralleli. La forma di una delle distribuzioni è irrilevante. I dettagli possono essere trovati inkklogloghttp://biostat.mc.vanderbilt.edu/CourseBios330 nel Capitolo 15 di Handouts.

Esistono due tipi di ipotesi di un metodo statistico frequentista che vengono frequentemente prese in considerazione. Il primo sono i presupposti necessari per far sì che il metodo preservi l'errore di tipo I. Il secondo riguarda il mantenimento dell'errore di tipo II (ottimalità; sensibilità). Credo che il modo migliore per esporre le ipotesi necessarie per il secondo sia quello di incorporare un test non parametrico in un modello semiparametrico come fatto sopra. La connessione effettiva tra i due proviene dai test di punteggio efficienti di Rao derivanti dal modello semiparametrico. Il numeratore del test di punteggio da un modello di probabilità proporzionale per il caso a due campioni è esattamente la statistica di somma dei ranghi.


1
Grazie per questo, sono molto d'accordo con la filosofia di questa risposta - per esempio, molte fonti suggeriscono che dovrei almeno controllare i dati del bulbo oculare per la normalità prima di decidere un test. Ma questo tipo di procedura multi-step chiaramente, seppur sottilmente, influenza il funzionamento dei test.
Silverfish

1
Alcune domande: (1) supponiamo che ci siano buone ragioni per assumere una distribuzione gaussiana a priori (ad esempio studi precedenti), quindi preferiamo un test t. Per i piccoli non ha senso cercare di valutare la normalità: non ci sarebbe modo di rilevare la sua violazione. Ma per o giù di lì, un diagramma QQ potrebbe apparire ad es. Se c'è un grave disallineamento. La filosofia di evitare le procedure in più passaggi significa che dovremmo semplicemente giustificare la nostra ipotesi di normalità, quindi procedere senza verificare l'apparente distribuzione dei nostri dati? Allo stesso modo, nel caso del campione k , dovremmo assumere per impostazione predefinita varianze ineguali invece di provare a verificarlo? nn=15
Silverfish

3
(1) Mi chiedo qual è la vostra opinione su di Mann-Whitney-Wilcoxon vs. test di permutazione (mi riferisco al test di permutazione Monte Carlo, quando le etichette di gruppo vengono mescolate ad esempio volte e -value viene calcolata direttamente come il numero di riordini con conseguente differenza di gruppo maggiore)? p10000p
ameba,

4
I test di permutazione sono modi per controllare l'errore di tipo I ma non affrontano l'errore di tipo II. Un test di permutazione basato su statistiche non ottimali (ad esempio, media ordinaria e varianza quando i dati provengono da una distribuzione log-gaussiana) subirà in termini di potenza.
Frank Harrell,

3
Sì, il capitolo 15 degli Handouts è stato ampliato in un nuovo capitolo della prossima seconda edizione del mio libro, che presenterò all'editore il mese prossimo.
Frank Harrell,

13

Rand Wilcox nelle sue pubblicazioni e nei suoi libri sottolinea alcuni punti molto importanti, molti dei quali sono stati elencati da Frank Harrell e Glen_b nei post precedenti.

  1. La media non è necessariamente la quantità su cui vogliamo dedurre. Ci sono forse altre quantità che esemplificano meglio un'osservazione tipica .
  2. Per i test t, la potenza può essere bassa anche per piccoli scostamenti dalla normalità.
  3. Per i test t, la copertura della probabilità osservata può essere sostanzialmente diversa da quella nominale.

Alcuni suggerimenti chiave sono:

  1. Un'alternativa valida è quella di confrontare le medie tagliate o gli stimatori M usando il test t. Wilcox suggerisce mezzi tagliati al 20%.
  2. I metodi di verosimiglianza empirica sono teoricamente più vantaggiosi ( Owen, 2001 ) ma non necessariamente per medie e piccole n.
  3. I test delle permutazioni sono ottimi se si deve controllare l'errore di tipo I, ma non è possibile ottenere CI.
  4. Per molte situazioni Wilcox propone il bootstrap-t per confrontare i mezzi tagliati. In R, questo è implementato nelle funzioni yuenbt , yhbt nel pacchetto WRS .
  5. Il bootstrap percentuale potrebbe essere migliore del percentile-t quando la quantità di taglio è> / = 20%. In R questo è implementato nella funzione pb2gen nel pacchetto WRS di cui sopra .

Due buone referenze sono Wilcox ( 2010 ) e Wilcox ( 2012 ).


8

Bradley, nel suo lavoro Test statistici senza distribuzione (1968, pagg. 17-24) , porta tredici contrasti tra quelli che chiama test "classici" e "senza distribuzione". Nota che Bradley distingue tra "non parametrico" e "senza distribuzione", ma ai fini della tua domanda questa differenza non è rilevante. In questi tredici sono inclusi elementi che si riferiscono non solo ai derivati ​​dei test, ma alle loro applicazioni. Questi includono:

  • Scelta del livello di significatività: i test classici hanno livelli di significatività continui; i test senza distribuzione di solito hanno osservazioni discrete dei livelli di significatività, quindi i test classici offrono una maggiore flessibilità nel fissare tale livello.
  • Validità logica della regione di rifiuto: le regioni di rifiuto del test prive di distribuzione possono essere meno intuitivamente comprensibili (né necessariamente fluide né continue) e possono creare confusione su quando il test dovrebbe essere considerato respinto l'ipotesi nulla.
  • Tipo di statistiche che sono testabili: Per citare direttamente Bradley: "Le statistiche definite in termini di operazioni aritmetiche sulle magnitudini di osservazione possono essere testate con tecniche classiche, mentre quelle definite da relazioni di ordine (rango) o frequenze di categoria, ecc. Possono essere testate da metodi privi di distribuzione. Mezzi e varianze sono esempi del primo, mediane e intervalli interquartili del secondo. "Soprattutto quando si tratta di distribuzioni non normali, la capacità di testare altre statistiche diventa preziosa, prestando peso ai test senza distribuzione .
  • Testabilità di interazioni di ordine superiore: molto più semplice nei test classici rispetto ai test senza distribuzione.
  • Influenza della dimensione del campione:Questo è piuttosto importante secondo me. Quando le dimensioni del campione sono piccole (Bradley dice circa n = 10), può essere molto difficile determinare se le ipotesi parametriche alla base dei test classici sono state violate o meno. I test senza distribuzione non hanno questi presupposti da violare. Inoltre, anche quando le ipotesi non sono state violate, i test senza distribuzione sono spesso altrettanto facili da applicare e quasi altrettanto efficienti di un test. Quindi per campioni di piccole dimensioni (meno di 10, possibili fino a 30) Bradley preferisce un'applicazione quasi ordinaria di test senza distribuzione. Per campioni di grandi dimensioni, il Teorema del limite centrale tende a sopraffare le violazioni parametriche in quanto la media del campione e la varianza del campione tenderanno alla normalità e i test parametrici potrebbero essere superiori in termini di efficienza.
  • Ambito di applicazione: essendo privi di distribuzione, tali test sono applicabili a una classe di popolazione molto più ampia rispetto ai test classici che presuppongono una distribuzione specifica.
  • Rilevabilità della violazione del presupposto di una distribuzione continua: facile da vedere nei test senza distribuzione (es. Esistenza di punteggi legati), più difficile nei test parametrici.
  • Effetto della violazione dell'assunzione di una distribuzione continua: se l'assunzione viene violata il test diventa inesatto. Bradley passa il tempo a spiegare come i limiti dell'inesattezza possono essere stimati per i test senza distribuzione, ma non esiste una routine analoga per i test classici.

1
Grazie per la citazione! Il lavoro di Bradley sembra piuttosto vecchio, quindi sospetto che non abbia molto lavoro su moderni studi di simulazione per confrontare efficienze e tassi di errore di tipo I / II in vari scenari? Sarei anche interessato a ciò che suggerisce sui test di Brunner-Munzel - dovrebbero essere usati al posto di un test U se le varianze nei due gruppi non sono note per essere uguali?
Silverfish,

1
Bradley discute l'efficienza, anche se il più delle volte, è nel contesto dell'efficienza relativa asintotica. A volte fornisce fonti per dichiarazioni sull'efficienza finita delle dimensioni del campione, ma dato che il lavoro è del 1968, sono sicuro che da allora sono state fatte analisi molto migliori. A proposito, se ho ragione, Brunner e Munzel hanno scritto il loro articolo nel 2000 , il che spiega perché non vi sia alcuna menzione in Bradley.
Avraham,

Sì, questo lo spiegherebbe davvero! :) Sai se esiste un sondaggio più aggiornato di Bradley?
Silverfish,

Una breve ricerca mostra che ci sono molti testi recenti su statistiche non parametriche. Ad esempio: Metodi statistici non parametrici (Hollander et al, 2013), Test di ipotesi non parametrici: Metodi di rango e permutazione con applicazioni in R (Bonnini et al, 2014), Inference Statistical non parametrico, Quinta edizione (Gibbons and Chakraborti, 2010). Ce ne sono molti altri che emergono in varie ricerche. Dato che non ne ho, non posso formulare raccomandazioni. Scusate.
Avraham,

5

Iniziando a rispondere a questa domanda molto interessante.

Per dati non associati:

L'esecuzione di cinque test di localizzazione a due campioni per distribuzioni distorte con varianze ineguali di Morten W. Fagerland, Leiv Sandvik (dietro paywall) esegue una serie di esperimenti con 5 test diversi (t-test, Welch U, Yuen-Welch, Wilcoxon-Mann -Whitney e Brunner-Munzel) per diverse combinazioni di dimensioni del campione, rapporto del campione, allontanamento dalla normalità e così via. L'articolo finisce per suggerire Welch U in generale,

Ma l'appendice A del documento elenca i risultati per ciascuna combinazione di dimensioni del campione. E per campioni di piccole dimensioni (m = 10 n = 10 o 25) i risultati sono più confusi (come previsto) - nella mia stima dei risultati (non degli autori) Welch U, Brunner-Munzel sembra funzionare altrettanto bene, e test t anche bene in m = 10 e n = 10 caso.

Questo è quello che so finora.

Per una soluzione "veloce", ho usato per citare la crescente consapevolezza dei medici sull'impatto delle statistiche sui risultati della ricerca: potenza comparativa del test t e test di somma di Wilcoxon nella ricerca applicata su piccoli campioni di Patrick D Bridge e Shlomo S Sawilowsky (anche dietro paywall) e andare direttamente a Wilcoxon, indipendentemente dalle dimensioni del campione, ma avvertimento , ad esempio Dovremmo sempre scegliere un test non parametrico quando confrontiamo due distribuzioni apparentemente non normali? di Eva Skovlund e Grete U. Fensta .

Non ho ancora trovato risultati simili per i dati associati


Apprezzo le citazioni! Per chiarimenti, si fa riferimento a "Welch U", lo stesso test noto anche come "Welch t" o "Welch-Aspin t" o (come forse l'ho erroneamente chiamato nella domanda) "test t con correzione Welch" ?
Silverfish

Per quanto ho capito dalla carta, Welch U non è la solita Welch-Aspin - non usa l'equazione di Welch-Satterthwaite per i gradi di libertà, ma una formula che ha una differenza tra il cubo e il quadrato del campione taglia.
Jacques Wainer,

È comunque un test t, nonostante il suo nome? Ovunque altro cerco "Welch U", mi sembra di trovare che si riferisca al Welch-Aspin, il che è frustrante.
Silverfish,


1

Simulazione della differenza dei mezzi delle popolazioni gamma

Confronto tra il test t e il test di Mann Whitney

Riepilogo dei risultati

  • Quando la varianza delle due popolazioni è la stessa, il test di Mann Whitney ha una potenza reale maggiore ma anche un errore di tipo 1 maggiore rispetto al test t.
  • Per un campione di grandi dimensioni N = 1000, l'errore minimo reale di tipo 1 per il test di Whit Whitney è del 9%, mentre il test t ha un vero tipo 1 del 5% come richiesto dall'impostazione dell'esperimento (rifiutare per valori di p inferiori al 5%)H0
  • Quando la varianza di due popolazioni è diversa, il test di Mann Whitney porta a un errore di tipo 1 grande, anche quando i mezzi sono gli stessi. Ciò è previsto dal momento che Mann Whitney verifica la differenza nelle distribuzioni, non nei mezzi.
  • Il test t è robusto per differenze di varianza ma mezzi identici

Esperimento 1) Mezzi diversi, stessa varianza

Considera due distribuzioni gamma parametrizzate usando k (forma) e scale , con parametriθ

  • X1 : gamma con e quindi media e varianzak=0.5θ=1E[X1]=kθ=0.5Var[X1]=kθ2=0.5
  • X2 : gamma con e e varianzak=1.445θ=0.588235 E[X2]=.85Var[X2]=.5

Verificheremo una differenza nella media dei campioni da e . Qui la configurazione è scelta in modo tale che e abbiano la stessa varianza, quindi la vera distanza di cohen d è 0,5X1X2X1X2

d=(.85.5)/.5=0.5

Confronteremo due metodi di test: il test t due campioni e il test non parametrico di Mann Whitney e simuleremo il vero Tipo I e la potenza di questi test per diverse dimensioni del campione (supponendo che rifiutiamo l'ipotesi nulla per valore <0,05)p

  • H0:μX1=μX2=0.5
  • H1:μX1μX2

L'errore di tipo 1 vero viene calcolato come: e la potenza reale viene calcolata come: . Simuliamo migliaia di esperimenti utilizzando la vera distribuzione di eP(reject|H0)P(reject|H1)H0H1

fonti:

Distribuzioni della popolazione

inserisci qui la descrizione dell'immagine

Risultati della simulazione

inserisci qui la descrizione dell'immagine

Discussione

  • Come previsto, la media del campione non viene normalmente distribuita per campioni di piccole dimensioni ( ), come mostrato dall'inclinazione della distribuzione e dalla curtosi. Per campioni di dimensioni maggiori, la distribuzione è approssimativamente normaleN=10
  • Per tutte le dimensioni del campione, il test di Mann Whitney ha una potenza maggiore rispetto al test t, e in alcuni casi di un fattore 2
  • Per tutte le dimensioni dei campioni, il test di Mann Whitney presenta un errore di tipo I maggiore e questo di un fattore o 2 - 3
  • Il test t ha una bassa potenza per campioni di piccole dimensioni

Discussione : quando la varianza delle due popolazioni è effettivamente la stessa, il test di Mann Whitney supera di gran lunga il test t in termini di potenza per campioni di piccole dimensioni, ma ha un tasso di errore di tipo 1 più elevato


Esperimento 2: varianze diverse, stessa media

  • X1 : gamma con e quindi media e varianzak=0.5θ=1E[X1]=kθ=.5Var[X1]=kθ2=.5
  • X2 : gamma con e e varianzak=0.25θ=2 E[X2]=.5Var[X2]=1

Qui non saremo in grado di computerizzare la potenza perché la simulazione non contiene il vero scenario . Tuttavia, possiamo calcolare l'errore di tipo 1 quando e quandoH1Var[X1]=Var[X2]Var[X1]Var[X2]

Discussione I risultati della simulazione mostrano che il test t è molto robusto per varianza diversa e l'errore di tipo I è vicino al 5% per tutte le dimensioni del campione. Come previsto, il test di Mann Whitney ha prestazioni scarse in questo caso poiché non sta testando una differenza nelle medie ma una differenza nelle distribuzioni

inserisci qui la descrizione dell'immagine

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.