Quanto è solido il test t dei campioni indipendenti quando le distribuzioni dei campioni non sono normali?


24

Ho letto che il test t è "ragionevolmente robusto" quando le distribuzioni dei campioni si discostano dalla normalità. Naturalmente, è la distribuzione campionaria delle differenze che sono importanti. Ho dei dati per due gruppi. Uno dei gruppi è fortemente distorto sulla variabile dipendente. La dimensione del campione è piuttosto piccola per entrambi i gruppi (n = 33 in uno e 45 nell'altro). Dovrei supporre che, in queste condizioni, il mio test t sarà robusto alle violazioni del presupposto della normalità?


3
"Certo, è la distribuzione campionaria delle differenze che sono importanti" - Differenze in cosa? Sono stato tentato di modificarlo fuori questione perché temo che sia fuorviante per i futuri lettori (e tangenziale al punto principale). Il mio primo pensiero è stato un riferimento errato a un test t accoppiato , in cui assumiamo che le differenze tra le coppie siano normali, ma ciò non si applica in un test di campioni indipendente. Non abbiamo nemmeno coppie che fanno la differenza! Forse si intende "differenza nei mezzi"? Il resto della Q considera la normalità dei due campioni, non alcuna differenza.
Silverfish,

La questione di come robusto il t -test è quello di tali violazioni è un importante e legittimo. Ma un problema correlato è che non è consigliabile verificare prima le violazioni dei dati e solo successivamente decidere se applicare un test t o un test alternativo. Tale procedura in più fasi ha caratteristiche operative incerte. Vedi questa discussione: Un metodo di principio per scegliere tra t test o non parametrico, ad es. Wilcoxon in piccoli campioni
Silverfish,

Qual è una fonte credibile? (Presumo che saremmo entrambi d'accordo sul fatto che non esiste una fonte ufficiale). Stiamo osservando la solidità del livello o anche la potenza? E se "anche potere" ... di che tipo di alternativa stiamo parlando ?
Glen_b

@Glen_b Siamo spiacenti, il messaggio di bounty "fonti ufficiali" è chiaramente più per StackOverflow! Sento solo che questo thread è praticamente importante (oltre a un traffico piuttosto elevato e scarso su Wikipedia) per meritare alcune citazioni. Il modello di taglie "risposta canonica" sarebbe inappropriato, come mostra chiaramente la risposta di Peter Flom. Ho la sensazione che ci sia un "corpus comune di conoscenze" su questo argomento - se mi fosse stato chiesto questo Q in modo manuale, la mia lista sarebbe molto simile a quella di Dallal (avrei aggiunto la curtosi, ma non mi sarei azzardato ad avere la stessa dimensione del campione protegge contro non-normalità generale)
Silverfish

@Glen_b La tua risposta ha una vena simile, quindi sembra che ci siano alcuni punti di base ampiamente conosciuti / accettati. La mia laurea ha riguardato ipotesi ma non conseguenze della violazione: la mia conoscenza è attinta da diverse fonti, frammenti sparsi (i libri di testo "stats for psychologists" possono prestare più attenzione alle conseguenze rispetto a molti testi di teoria delle statistiche) - altrimenti avrei pubblicato una risposta non una taglia! Se qualcuno conosce un sommario decente di una pagina in un buon libro di testo, mi farebbe bene. Se sono un paio di articoli con risultati di simulazione, va bene lo stesso. Qualunque futuro lettore potrebbe riferirsi e citare.
Silverfish

Risposte:


16

Alle domande sulla robustezza è molto difficile rispondere bene, perché le ipotesi possono essere violate in molti modi e in ogni modo a diversi livelli. Il lavoro di simulazione può solo campionare una minima parte delle possibili violazioni.

Dato lo stato dell'informatica, penso che valga spesso la pena di eseguire un test sia parametrico che non parametrico, se entrambi sono disponibili. È quindi possibile confrontare i risultati.

Se sei davvero ambizioso, potresti persino fare un test di permutazione.

E se Alan Turing avesse fatto il suo lavoro prima di Ronald Fisher? :-).


1
Peter, mi hai ispirato a scrivere narrativa storica per rispondere esattamente a questa domanda!
Sycorax dice di reintegrare Monica il

12

@PeterFlom ha colpito a segno con la sua prima frase.

Proverò a dare un sommario approssimativo di quali studi ho visto (se vuoi dei link potrebbe volerci un po '):

Nel complesso, il test t di due campioni è ragionevolmente robusto in termini di non normalità simmetrica (il tasso di errore reale di tipo I è influenzato in qualche modo dalla curtosi, il potere è influenzato principalmente da quello).

Quando i due campioni sono leggermente inclinati nella stessa direzione, il test t a una coda non è più imparziale. La statistica t è distorta rispetto alla distribuzione e ha molta più potenza se il test è in una direzione piuttosto che nell'altra. Se sono inclinati in direzioni opposte, il tasso di errore di tipo I può essere fortemente influenzato.

L'asimmetria pesante può avere un impatto maggiore, ma in generale, l'asimmetria moderata con un test a due code non è poi così male se non ti dispiace in sostanza il test che assegna più del suo potere a una direzione rispetto all'altra.

In breve: il test t a due code e a due campioni è ragionevolmente robusto per questo tipo di cose se si può tollerare un certo impatto sul livello di significatività e un lieve pregiudizio.

Tuttavia, ci sono molti, molti modi in cui le distribuzioni non sono normali, che non sono coperte da questi commenti.


Non sono sicuro che sia corretto dire che è ragionevolmente robusto! Il livello di significatività è ragionevole, il livello di significatività sarà approssimativamente corretto, ma ad esempio i test sui wilcoxon possono avere un potere molto più elevato perché le alternative ragionevolmente vicine alla normalità possono essere difficili da rilevare. Questo dipende anche da fattori come se vi sia un uguale numero di osservazioni in ciascun gruppo: la robustezza è molto più fragile nel caso ineguale!
kjetil b halvorsen,

1
@kjetilbhalvorsen Gli studi che ho visto - tra cui alcune simulazioni che ho fatto da solo (e non ne ho guardato per un bel po '; potresti aver visto qualcosa che non ho visto), la maggior parte dell'effetto sul potere sembrava per lo più spingendo il livello su e giù (che non ha influenzato il Wilcoxon). Date le proprietà di potenza generalmente buone del Wilcoxon in queste circostanze (in particolare con code pesanti), è abbastanza per avere la vittoria del Wilcoxon sul potere - se si regolano i livelli in modo che siano simili, mi ha sorpreso quanto bene il t-spesso fatto.
Glen_b -Restate Monica

7

@PeterFlom ha già menzionato che gli studi di simulazione non possono mai coprire tutti gli scenari e le possibilità e quindi non possono portare a una risposta definitiva. Tuttavia, trovo ancora utile esplorare effettivamente un problema come questo conducendo alcune simulazioni (questo sembra essere esattamente il tipo di esercizio che mi piace usare quando introduco agli studenti l'idea degli studi di simulazione di Monte Carlo). Quindi, proviamo davvero questo. Userò R per questo.

Il codice

n1 <- 33
n2 <- 45
mu1 <- 0
mu2 <- 0
sd1 <- 1
sd2 <- 1

iters <- 100000
p1 <- p2 <- p3 <- p4 <- p5 <- rep(NA, iters)

for (i in 1:iters) {

   ### normal distributions
   x1 <- rnorm(n1, mu1, sd1)
   x2 <- rnorm(n2, mu2, sd2)
   p1[i] <- t.test(x1, x2)$p.value

   ### both variables skewed to the right
   x1 <- (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p2[i] <- t.test(x1, x2)$p.value

   ### both variables skewed to the left
   x1 <- -1 * (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- -1 * (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p3[i] <- t.test(x1, x2)$p.value

   ### first skewed to the left, second skewed to the right
   x1 <- -1 * (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- (rchisq(n2, df=1) - 1)/sqrt(2)      * sd2 + mu2
   p4[i] <- t.test(x1, x2)$p.value

   ### first skewed to the right, second skewed to the left
   x1 <- (rchisq(n1, df=1) - 1)/sqrt(2)      * sd1 + mu1
   x2 <- -1 * (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p5[i] <- t.test(x1, x2)$p.value

}

print(round((apply(cbind(p1, p2, p3, p4, p5), 2, function(p) mean(p <= .05))), 3))

Spiegazione

  1. Innanzitutto impostiamo la dimensione del gruppo ( n1e n2), il vero gruppo significa ( mu1e mu2) e le vere deviazioni standard ( sd1e sd2).

  2. Quindi definiamo il numero di iterazioni da eseguire e impostiamo i vettori in cui archiviare i valori p.

  3. Quindi simulo i dati in 5 scenari:

    1. Entrambe le distribuzioni sono normali.
    2. Entrambe le distribuzioni sono inclinate a destra.
    3. Entrambe le distribuzioni sono inclinate a sinistra.
    4. La prima distribuzione è inclinata a sinistra, la seconda a destra.
    5. La prima distribuzione è inclinata a destra, la seconda a sinistra.

    Nota che sto usando le distribuzioni chi-squadrate per generare le distribuzioni distorte. Con un grado di libertà, queste sono distribuzioni fortemente distorte. Poiché la vera media e la varianza di una distribuzione chi-quadrato con un grado di libertà è rispettivamente uguale a 1 e 2 ( vedi Wikipedia ), riscalizzo quelle distribuzioni per avere prima 0 media e deviazione standard 1 e poi riscalare per avere il media reale desiderata e deviazione standard (questo potrebbe essere fatto in un solo passaggio, ma farlo in questo modo potrebbe essere più chiaro).

  4. In ogni caso, applico il t-test (versione di Welch - si potrebbe ovviamente considerare anche la versione di Student che assume scostamenti uguali nei due gruppi) e salvare il valore p nei vettori impostati in precedenza.

  5. Infine, una volta completate tutte le iterazioni, calcolo per ogni vettore la frequenza con cui il valore p è uguale o inferiore a 0,05 (ovvero, il test è "significativo"). Questo è il tasso di rifiuto empirico.

Alcuni risultati

  1. Simulando esattamente come descritto sopra si ottengono:

       p1    p2    p3    p4    p5 
    0.049 0.048 0.047 0.070 0.070
    

    α=.05

  2. Se cambiamo il codice in mu1 <- .5, otteniamo:

       p1    p2    p3    p4    p5 
    0.574 0.610 0.606 0.592 0.602
    

    Quindi, rispetto al caso in cui entrambe le distribuzioni sono normali (come ipotizzato dal test), la potenza sembra in realtà essere leggermente superiore quando l'asimmetria è nella stessa direzione! Se sei sorpreso da questo, potresti voler ripetere alcune volte (ovviamente, ogni volta ottenendo risultati leggermente diversi), ma lo schema rimarrà.

    Si noti che dobbiamo prestare attenzione all'interpretazione dei valori di potenza empirica nei due scenari in cui l'asimmetria è in direzioni opposte, poiché il tasso di errore di tipo I non è del tutto nominale (come caso estremo, supponiamo di rifiutare sempre indipendentemente da quali siano i dati mostra, quindi avrò sempre un test con la massima potenza, ma ovviamente il test ha anche un tasso di errore di Tipo I piuttosto gonfiato).

Si potrebbe iniziare a esplorare una gamma di valori per mu1(e mu2- ma ciò che conta davvero è la differenza tra i due) e, cosa più importante, iniziare a cambiare le vere deviazioni standard dei due gruppi (cioè, sd1e sd2) e soprattutto a renderle disuguali. Mi sono anche attenuto alle dimensioni del campione menzionate dall'OP, ma ovviamente anche quelle potevano essere regolate. E l'asimmetria potrebbe ovviamente assumere molte altre forme rispetto a ciò che vediamo in una distribuzione chi-quadrata con un grado di libertà. Penso ancora che avvicinarsi alle cose in questo modo sia utile, nonostante non possa dare una risposta definitiva.


2
Dal momento che al giorno d'oggi abbiamo una serie di solidi metodi semi-parametrici, perché questa discussione è così utile?
Frank Harrell,

(+1) Penso che avrebbe potuto valere la pena di includere il caso in cui un campione è stato estratto da una popolazione distorta e l'altro no, poiché questo era ciò che l'OP pensava potesse accadere ai loro dati. Ma è bello vedere una risposta con codice esplicito. (Una leggera generalizzazione consentirebbe in realtà a un lettore di indagare quanto i metodi robusti siano paragonabili al tradizionale test t, che è un utile esercizio pedagogico se stai cercando di insegnare a qualcuno i pericoli di applicare un test le cui ipotesi sono state violate. .)
Silverfish

2

Nella tua situazione, il test t sarà probabilmente robusto in termini di tasso di errore di tipo I, ma non di tasso di errore di tipo II. Probabilmente otterresti più potenza attraverso a) un test di Kruskal-Wallis oppure b) una trasformazione normalizzante prima di un test t.

Sto basando questa conclusione su due studi di Monte Carlo. Nel primo ( Khan & Rayner, 2003 ), l'inclinazione e la curtosi sono state indirettamente manipolate tramite i parametri della famiglia di distribuzione g-and-k, e la potenza risultante è stata esaminata. È importante sottolineare che la potenza del test Kruskal-Wallis è stata meno danneggiata dalla non normalità, in particolare per n> = 15.

Alcune avvertenze / qualifiche su questo studio: il potere era spesso danneggiato dall'alta curtosi, ma era meno influenzato dall'inclinazione. A prima vista, questo schema potrebbe sembrare meno rilevante per la tua situazione dato che hai notato un problema di inclinazione, non di curtosi. Tuttavia, sto scommettendo che l'eccesso di curtosi è anche estremo nel tuo caso. Tieni presente che l'eccesso di curtosi sarà almeno pari a quello di inclinazione ^ 2 - 2. (Lascia che l'eccesso di curtosi sia uguale al quarto momento standardizzato meno 3, in modo che l'eccesso di curtosi = 0 per una distribuzione normale.) Nota anche che Khan e Rayner ( 2003) hanno esaminato gli ANOVA con 3 gruppi, ma i loro risultati probabilmente si generalizzeranno a un test t a due campioni.

Un secondo studio pertinente ( Beasley, Erikson e Allison, 2009) ha esaminato gli errori di tipo I e di tipo II con varie distribuzioni non normali, come un Chi-quadrato (1) e Weibull (1, 0,5). Per campioni di dimensioni almeno pari a 25, il test t ha adeguatamente controllato il tasso di errore di tipo I pari o inferiore al livello alfa nominale. Tuttavia, la potenza era massima con un test di Kruskal-Wallis o con una trasformazione inversa normale basata sul rango (punteggi Blom) applicata prima del test t. Beasley e colleghi hanno generalmente discusso contro l'approccio normalizzante, ma va notato che l'approccio normalizzante controllava il tasso di errore di tipo I per n> = 25 e il suo potere a volte superava leggermente quello del test Kruskal-Wallis. Cioè, l'approccio normalizzante sembra promettente per la tua situazione. Vedi le tabelle 1 e 4 nel loro articolo per i dettagli.

Riferimenti:

Khan, A. e Rayner, GD (2003) . Robustezza rispetto alla non normalità dei test comuni per il problema della localizzazione di molti campioni. Journal of Applied Mathematics and Decision Sciences, 7 , 187-206.

Beasley, TM, Erickson, S. e Allison, DB (2009) . Le trasformazioni normali inverse basate sul rango sono sempre più utilizzate, ma sono meritate? Behavioral Genetics, 39 , 580-595.


(eccesso) curtosistorto2-2

Sembra una domanda degna del proprio thread. Forse la tua preoccupazione è che l'eccesso di curtosi sarà distorto verso il basso in piccoli campioni? Naturalmente, questo è stato anche il caso degli studi di simulazione sopra, e la curtosi ha comunque causato una bassa potenza nel test t in quelle situazioni. La tua domanda indica una limitazione più generale della maggior parte degli studi di Monte Carlo: le conclusioni si basano spesso su caratteristiche della popolazione, caratteristiche che il ricercatore applicato non può osservare. Sarebbe più utile essere in grado di prevedere la potenza relativa basata su inclinazione del campione, curtosi, ecc.
Anthony

Ho pubblicato una domanda separata su questo problema: stats.stackexchange.com/questions/133247/…
Anthony

0

Prima di tutto, se si presume che la distribuzione dei due campioni sia diversa, assicurarsi di utilizzare la versione di Welch del test t che presuppone variazioni ineguali tra i gruppi. Questo tenterà almeno di tenere conto di alcune delle differenze che si verificano a causa della distribuzione.

Se osserviamo la formula per il test t di Welch:

t=X¯1-X¯2SX¯1-X¯2

dove SX¯1-X¯2

SX¯1-X¯2=S12n1+S22n2

possiamo vedere che ogni volta che c'è un s sappiamo che la varianza viene presa in considerazione. Immaginiamo che le due varianze siano effettivamente le stesse, ma una sia distorta, portando a una stima della varianza diversa. Se questa stima della varianza non è effettivamente rappresentativa dei tuoi dati a causa dell'inclinazione, l'effetto di distorsione effettivo sarà essenzialmente la radice quadrata di tale distorsione divisa per il numero di punti dati utilizzati per calcolarlo. Pertanto, l'effetto di cattivi stimatori della varianza è attenuato un po 'dalla radice quadrata e da una n più alta, ed è probabilmente per questo che il consenso è che rimane un test solido.

L'altro problema delle distribuzioni distorte è che anche il calcolo della media sarà influenzato, ed è probabilmente qui che sorgono i problemi reali delle violazioni del presupposto del test poiché i mezzi sono relativamente sensibili all'inclinazione. E la robustezza del test può essere determinata approssimativamente calcolando la differenza di mezzi, rispetto alla differenza di mediane (come idea). Forse potresti anche provare a sostituire la differenza di mezzi con la differenza di mediane nel test t come misura più solida (sono sicuro che qualcuno ne abbia discusso ma non sono riuscito a trovare qualcosa su Google abbastanza velocemente da collegarmi).

Suggerirei anche di eseguire un test di permutazione se tutto ciò che stai facendo è un test t. Il test di permutazione è un test esatto, indipendente dalle ipotesi di distribuzione. Ancora più importante, i test di permutazione e il test t porteranno a risultati identici se i presupposti del test parametrico sono soddisfatti . Pertanto, la misura di robustezza che si cerca può essere 1: la differenza tra i valori p di permutazione e t-test, dove un punteggio di 1 implica una robustezza perfetta e 0 implica una non robustezza.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.