T-test robusto per media


17

Sto provando a testare la null , rispetto all'alternativa locale E [ X ] > 0 , per una variabile casuale X , soggetta ad inclinazione da lieve a media e curtosi della variabile casuale. Seguendo i suggerimenti di Wilcox in "Introduzione alla stima robusta e al test di ipotesi", ho esaminato i test basati sulla media tagliata, sulla mediana e sullo stimatore M della posizione (procedura "one-step" di Wilcox). Questi test robusti superano il test t standard, in termini di potenza, quando testano con una distribuzione non distorta, ma leptokurtotica.E[X]=0E[X]>0X

Tuttavia, quando si esegue il test con una distribuzione distorta, questi test unilaterali sono troppo liberi o troppo conservativi sotto l'ipotesi nulla, a seconda che la distribuzione sia distorta a destra oa sinistra, rispettivamente. Ad esempio, con 1000 osservazioni, il test basato sulla mediana rifiuta effettivamente circa il 40% delle volte, al livello nominale del 5%. La ragione di ciò è ovvia: per le distribuzioni distorte, la mediana e la media sono piuttosto diverse. Tuttavia, nella mia applicazione, ho davvero bisogno di testare la media, non la mediana, non la media ritagliata.

Esiste una versione più robusta del test t che verifica effettivamente la media, ma è impermeabile all'inclinazione e alla curtosi?

Idealmente, la procedura dovrebbe funzionare bene anche nel caso di assenza di inclinazione e alta curtosi. Il test 'one-step' è quasi abbastanza buono, con il parametro 'bend' impostato relativamente alto, ma è meno potente dei test medi tagliati quando non c'è inclinazione e presenta alcuni problemi nel mantenere il livello nominale di scarti inclinato .

background: il motivo per cui mi interessa davvero la media, e non la mediana, è che il test verrebbe utilizzato in un'applicazione finanziaria. Ad esempio, se si desidera verificare se un portafoglio ha avuto rendimenti log attesi positivi, la media è effettivamente appropriata perché se si investe nel portafoglio, si verificheranno tutti i rendimenti (che sono la media del numero di campioni), anziché duplicati della mediana. Cioè, ho veramente a cuore la somma di n attinge RV X .nnX


C'è un motivo che proibisce l'uso del test t Welch? Dai un'occhiata alla mia risposta a questa domanda ( stats.stackexchange.com/questions/305/… ) in cui mi riferisco a un documento che sostiene l'uso di Welch in caso di non normalità ed eteroscedasticità.
Henrik,

1
bene, il problema è che voglio un test da 1 campione, non un test da 2 campioni! Sto testando la null , e non E [ X 1 ] = E [ X 2 ] . Cercherò il Kubinger et. al., carta (Ich kann schlecht Deutsche). E[X]=μE[X1]=E[X2]
shabbychef,

Grazie per il chiarimento. In questo caso il documento Kubinger non ti sarà molto utile. Mi dispiace.
Henrik

Risposte:


5

Perché stai guardando i test non parametrici? Le ipotesi del test t sono state violate? Vale a dire, dati ordinali o non normali e variazioni inconsistenti? Naturalmente, se il campione è abbastanza grande, è possibile giustificare il test t parametrico con la sua maggiore potenza nonostante la mancanza di normalità nel campione. Allo stesso modo se la vostra preoccupazione è varianze disuguali, ci sono correzioni al test parametrico che producono valori p accurati (la correzione di Welch).

Altrimenti, confrontare i tuoi risultati con il test t non è un buon modo per procedere, perché i risultati del test t sono distorti quando le assunzioni non sono soddisfatte. La Mann-Whitney U è un'alternativa non parametrica appropriata, se è ciò di cui hai veramente bisogno. Si perde potenza solo se si utilizza il test non parametrico quando è possibile utilizzare in modo giustificato il test t (poiché le ipotesi sono soddisfatte).

E, solo per qualche altra informazione, vai qui ...

http://www.jerrydallal.com/LHSP/STUDENT.HTM


i dati non sono assolutamente normali. l'eccesso di curtosi è dell'ordine di 10-20, l'inclinazione è dell'ordine di -0,2 a 0,2. Sto eseguendo un test t per 1 campione, quindi non sono sicuro di seguirti riguardo a "varianze disuguali" o al test U.
shabbychef,

Accetto il consiglio "usa un test parametrico". non risolve esattamente la mia domanda, ma probabilmente la mia domanda era troppo aperta.
shabbychef,

12

Concordo sul fatto che se si desidera verificare effettivamente se le medie del gruppo sono diverse (al contrario di verificare le differenze tra mediane del gruppo o medie definite, ecc.), Non si desidera utilizzare un test non parametrico che verifica una diversa ipotesi.

  1. In generale, i valori p di un test t tendono ad essere abbastanza precisi, dati i moderati scostamenti dal presupposto della normalità dei residui. Dai un'occhiata a questa applet per avere un'intuizione su questa solidità: http://onlinestatbook.com/stat_sim/robustness/index.html

  2. Se sei ancora preoccupato per la violazione del presupposto della normalità, potresti voler avviare il bootstrap . ad es. http://biostat.mc.vanderbilt.edu/wiki/pub/Main/JenniferThompson/ms_mtg_18oct07.pdf

  3. È inoltre possibile trasformare la variabile dipendente inclinata per risolvere i problemi con le deviazioni dalla normalità.


2
+1 bella e chiara risposta. Jeromy, posso fare una domanda sul punto 3? Capisco il ragionamento alla base della trasformazione dei dati, ma qualcosa mi ha sempre infastidito nel farlo. Qual è la validità di riportare i risultati del test t sui dati trasformati ai dati non trasformati (dove non sei "autorizzato" a fare un test t)? In altre parole, se due gruppi sono diversi quando, ad esempio, i dati vengono trasformati nel registro, su quali basi si può dire che anche i dati grezzi sono diversi? A mente, non sono uno statistico, quindi forse ho appena detto qualcosa di assolutamente stupido :)
nico,

2
@nico Non sono sicuro di come riferire o pensare ai risultati, ma se tutto ciò che vuoi mostrare è che per alcuni X e Y, mu_X! = mu_Y, dovrebbe essere vero che per tutti X_i <X_j, accedi ( X_i) <log (X_j) e per tutti X_i> X_j, log (X_i)> log (X_j). Ecco perché per i test non parametrici che operano con gradi, le trasformazioni dei dati non influiscono sul risultato. Penso da questo, si può presumere che se alcuni test mostrano che mu_log (X)! = Mu_log (Y), allora mu_X! = Mu_Y.
JoFrhwld,

grazie per la risposta (s). in effetti, il test t sembra mantenere il tasso nominale di tipo I sotto input leggermente distorto / kurtotico. tuttavia, speravo in qualcosa con più potere. ri: 2, ho implementato Wilcox ' trimpbe trimcibt, ma sono un po' troppo lenti per fare i miei test di potenza, almeno per i miei gusti. ri: 3, avevo pensato a questo metodo, ma sono interessato alla media dei dati non trasformati (cioè, non sto confrontando 2 camper con un test t, nel qual caso una trasformazione monotonica andrebbe bene per un confronto basato sul rango, come notato da @JoFrhwld.)
shabbychef

2
@nico Se la distribuzione della popolazione dei residui è la stessa in due gruppi, allora immagino che ogni volta che c'è una differenza nel gruppo della popolazione grezza, ci sarebbero anche differenze nei mezzi del gruppo di una trasformazione che preserva l'ordine. Detto questo, i valori di p e gli intervalli di confidenza tenderanno a cambiare leggermente in base al fatto che tu stia utilizzando dati grezzi o dati trasformati. In generale, preferisco usare le trasformazioni quando sembrano una metrica significativa per comprendere la variabile (ad es. Scala Richter, decibel, registri dei conteggi, ecc.).
Jeromy Anglim,

3

Johnson (1978) fornisce una modifica per ilt-intervalli statistici e di confidenza che sono un buon punto di partenza per il mio problema. La correzione si basa su un'espansione della Cornovaglia-Fisher e utilizza l'inclinazione del campione.

L'ultimo e il più grande è dovuto a Ogaswara , con riferimenti in esso a Hall e altri.


0

Non ho abbastanza reputazione per un commento, quindi come una risposta: dai un'occhiata a questo calcolo. Penso che questo fornisca una risposta eccellente. In breve:

Le prestazioni asintotiche sono molto più sensibili alle deviazioni dalla normalità sotto forma di asimmetria che nella forma di curtosi ... Pertanto il test t di Student è sensibile all'asimmetria ma relativamente robusto contro le code pesanti ed è ragionevole usare un test per la normalità diretta verso alternative distorte prima di applicare il test t.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.