Raddoppio delle code nel test di permutazione a due campioni

Supponiamo di avere due campioni e desideriamo determinare se sono tratti dalla stessa distribuzione, dicono i campioni A, B composti da alcuni numeri interi.

Se lo testiamo utilizzando un test di permutazione a due campioni, in particolare osservando le permutazioni in cui le differenze nei mezzi dei campioni sono estreme quanto la differenza osservata: c'è qualche motivo per pensare che possiamo calcolare la p- a due code valore guardando una coda e raddoppiando la probabilità?

Questo è ciò che sembra dire nelle mie note di lezione, ma non capisco perché potremmo presumere che le code siano simmetriche (o perché non implichi tale presupposto). Le spiegazioni non erano imminenti.

permutation-test

— harri
fonte

La distribuzione delle permutazioni della statistica del test non è garantita come simmetrica, quindi non è possibile farlo in questo modo. Invece, aggiungi entrambe le code. Nel caso di due campioni indipendenti, l'ipotesi nulla è che i due parametri di posizione siano uguali. Supponendo distribuzioni continue e uguale diffusione in entrambi i gruppi, abbiamo scambiabilità sotto l'ipotesi nulla. La statistica del test è la differenza nelle medie, con sotto il valore nullo. $T$ $E(T) = 0$

Il valore per nell'esempio originale è e i suoi valori per le permutazioni . è l'abbreviazione di "numero di" qualcosa, ad esempio, è il numero di statistiche del test di permutazione. Quindi il valore per l'ipotesi su due lati è , dove $T$ $T_{\text{emp}}$ $T^{\star}$ $\sharp(\cdot)$ $\sharp(T^{\star})$ $p$ $p_{\text{ts}} = p_{\text{left}} + p_{\text{right}}$

$p_{\text{left}} = \frac{\sharp(T^{\star} \, <= \, \text{min}(T_{\text{emp}}, -T_{\text{emp}}))}{\sharp(T^{\star})}$

$p_{\text{right}} = \frac{\sharp(T^{\star} \, >= \, \text{max}(T_{\text{emp}}, -T_{\text{emp}}))}{\sharp(T^{\star})}$

(supponendo che abbiamo la distribuzione completa della permutazione). Confrontiamo entrambi gli approcci per il caso di due campioni indipendenti quando possiamo calcolare la distribuzione esatta (completa) della permutazione.

set.seed(1234)
Nj   <- c(9, 8)                      # group sizes
DVa  <- rnorm(Nj[1], 5, 20)^2        # data group 1
DVb  <- rnorm(Nj[2], 10, 20)^2       # data group 2
DVab <- c(DVa, DVb)                  # data from both groups
IV   <- factor(rep(c("A", "B"), Nj)) # grouping factor
idx  <- seq(along=DVab)              # all indices
idxA <- combn(idx, Nj[1])            # all possible first groups

# function to calculate test statistic for a given permutation x
getDM <- function(x) { mean(DVab[x]) - mean(DVab[!(idx %in% x)]) }
resDM <- apply(idxA, 2, getDM)       # test statistic for all permutations
diffM <- mean(DVa) - mean(DVb)       # empirical stest statistic

Ora calcola i valori e convalida la soluzione proposta con l'implementazione nel pacchetto di R. Osserva che , quindi è importante il modo in cui calcoli . $p$ coin $p_{\text{left}} \neq p_{\text{right}}$ $p_{ts}$

> (pL <- sum(resDM <= min(diffM, -diffM)) / length(resDM))  # left p-value
[1] 0.1755245

> (pR <- sum(resDM >= max(diffM, -diffM)) / length(resDM))  # right p-value
[1] 0.1585356

> 2*pL        # doubling left p-value
[1] 0.351049

> 2*pR        # doubling right p-value
[1] 0.3170712

> pL+pR       # two-sided p-value
[1] 0.3340601

> sum(abs(resDM) >= abs(diffM)) / length(resDM)  # two-sided p-value (more concise)
[1] 0.3340601

# validate with coin implementation
> library(coin)              # for oneway_test()    
> oneway_test(DVab ~ IV, alternative="two.sided", distribution="exact")
Exact 2-Sample Permutation Test
data:  DVab by IV (A, B) 
Z = 1.0551, p-value = 0.3341
alternative hypothesis: true mu is not equal to 0

PS Per il caso Monte-Carlo in cui campioniamo solo dalla distribuzione di permutazione, i valori sarebbero definiti in questo modo: $p$

$p_{\text{left}} = \frac{\sharp(T^{\star} \, <= \, \text{min}(T_{\text{emp}}, -T_{\text{emp}})) + 1}{\sharp(T^{\star}) \, + \, 1}$

$p_{\text{right}} = \frac{\sharp(T^{\star} \, >= \, \text{max}(T_{\text{emp}}, -T_{\text{emp}})) +1 }{\sharp(T^{\star}) \, + \, 1}$

$p_{\text{ts}} = \frac{\sharp(\text{abs}(T^{\star}) \, >= \, \text{abs}(T_{\text{emp}})) \, + \, 1 }{\sharp(T^{\star}) + 1}$

La ragione per aggiungere intuitivamente un altro caso di permutazione estrema è che dobbiamo contare anche il campione empirico. Altrimenti, il valore permutazione potrebbe essere 0 che non può accadere nel caso continuo (vedere qui , nota: alcuni testi raccomandano questa correzione, altri no). $p$

— Caracal
fonte

Questo non presuppone che l'aspettativa di sia zero?

T

$T$

— whuber

@whuber Ho aggiunto che con un'ipotesi nulla di uguali parametri di posizione in entrambi i gruppi, abbiamo scambiabilità sotto il nulla ed sotto il nulla (assumendo continuità e uguale diffusione).

E (T) = 0

$E(T) = 0$

— Caracal,

Grazie, questo è un miglioramento. Potresti spiegare allora come la statistica potrebbe non avere una distribuzione simmetrica sotto questo presupposto?

— whuber

@whuber La distribuzione della permutazione può essere asimmetrica in quanto dipende dai valori del campione. Valori gruppo A: 1, valori gruppo B: 2, 2. Sono possibili tre permutazioni rilevanti che producono .

T^{⋆} = - 1, .5, .5

$T^{\star} = {-1, .5, .5}$

— Caracal,

Grazie per il chiarimento: seguo la logica ora.

— whuber