Test di permutazione confrontando un singolo campione con una media

Quando le persone implementano test di permutazione per confrontare un singolo campione con una media (ad esempio, come si potrebbe fare con un test t di permutazione), come viene gestita la media? Ho visto implementazioni che richiedono una media e un campione per un test di permutazione, ma non è chiaro cosa stiano effettivamente facendo sotto il cofano. Esiste anche un modo significativo per eseguire un test di permutazione (ad esempio, test t) per un campione rispetto a una media presunta? O, in alternativa, stanno semplicemente fallendo un test di non permutazione sotto il cofano? (ad esempio, nonostante la chiamata a una funzione di permutazione o l'impostazione di un flag di test di permutazione, l'impostazione predefinita di un test t standard o una funzione simile)

In un test di permutazione standard a due campioni, uno avrebbe due gruppi e randomizzerebbe l'assegnazione delle etichette. Tuttavia, come viene gestito quando un "gruppo" è una media presunta? Ovviamente, una media presunta non ha dimensioni del campione in sé e per sé. Allora, qual è il modo tipico di lavorare la media in un formato di permutazione? Il campione "medio" è considerato un singolo punto? Un campione di uguali dimensioni per il gruppo campione? Un campione di dimensioni infinite?

Dato che una media assunta è, beh, assunta, direi che tecnicamente ha un supporto infinito o qualunque supporto tu voglia assumere per esso. Tuttavia, nessuno di questi è molto utile per un calcolo effettivo. Un campione di dimensioni uguali con valori tutti uguali alla media sembra essere ciò che viene fatto a volte con alcuni test (ad esempio, basta riempire l'altra metà delle coppie con la posizione presunta). Questo ha un po 'di senso, poiché è il campione di uguale lunghezza che vedresti se la tua media presunta fosse corretta senza varianza.

Quindi la mia domanda è questa: in pratica, le persone emulano effettivamente la randomizzazione dell'etichetta dello stile di test di permutazione quando il secondo set è una media (o un valore ipotizzato astratto simile)? In tal caso, come fanno le persone a gestire la randomizzazione delle etichette quando lo fanno?

t-test permutation-test

— namey
fonte

Un test di permutazione di una media ipotizzata specifica non è diverso dalla sottrazione di quella media ipotizzata dai dati e dal test contro una media di zero. Un test accoppiato è discusso qui ; si assume che sotto il nulla le coppie abbiano la stessa distribuzione, il che implica che le differenze su cui si basa il successivo test di un campione siano considerate simmetriche. Su questa base, i segni vengono capovolti casualmente su ogni differenza ... (ctd)

— Glen_b -Reinstate Monica

(ctd) ... (che per un test accoppiato equivale a capovolgere le etichette dei gruppi). Bene, questo è per un test di randomizzazione - per un test di permutazione completo faresti tutte le possibili combinazioni di segni di ribaltamento. Se non puoi assumere la simmetria, è un po 'difficile vedere cosa permetteresti, ma dovresti comunque essere in grado di condurre un test bootstrap.

2^{n}

$2^n$

— Glen_b

Questo ha senso. Ma sto pensando un po 'dalle implementazioni computazionali che la gente fa. Se riesci a trasformarlo in un test dei segni, le persone si preoccupano davvero di calcolare le permutazioni? Per qualsiasi sequenza di lunghezza N, l'intero set di permutazioni di lanci di segni sarebbe lo stesso, no? Quindi penso che sotto il cofano, le persone potrebbero semplicemente incanalarlo in un test binomiale piuttosto che generare manualmente le permutazioni che creano un disturbo binomiale. Mi chiedo principalmente se / quando ci sono vantaggi nella rietichettatura e nella permutazione rispetto all'uso di un test standard nel caso di un singolo campione rispetto alla media.

— Namey,

k^{th}

$k^\text{th}$

x_{i}

$x_i$

s_{i}^{[k]} | x_{i} |

$s_i^{[k]} |x_i|$

s

$s$

+ 1

$+1$

- 1

$-1$

x_{10}

$x_{10}$

x_{10}

$x_{10}$ sarebbe tutto -11,43 o +11,43. Se prima classificassi i dati assoluti, finiresti effettivamente con un test di valutazione firmato Wilcoxon, quindi è come la versione non classificata (dati originali) di quello.

— Glen_b

Espandendo il commento di Glen_b in una risposta

Un test di permutazione approssimativo di un campione per la media di un campione, a fronte di un'ipotesi nulla di media zero, viene implementato assegnando segni casuali ai dati nel campione. È possibile verificare ipotesi nulle diverse da zero sottraendo la media nulla desiderata dai dati.

Questo è facile da vedere nell'origine della funzione R onetPermutationnel pacchetto DAAG. Ecco un estratto del codice pertinente, con commenti che ho aggiunto:

function (x, nsim) {

  ## Initialize and pre-allocate

  n <- length(x)
  dbar <- mean(x)
  absx <- abs(x)  # there's actually a bug in the code; below you'll see that the function ends up re-computing abs(x) instead of using this
  z <- array(, nsim)


  ## Run the simulation    

  for (i in 1:nsim) {                             # Do nsim times:
      mn <- sample(c(-1, 1), n, replace = TRUE)   #  1. take n random draws from {-1, 1}, where n is the length of the data to be tested
      xbardash <- mean(mn * abs(x))               #  2. assign the signs to the data and put them in a temporary variable
      z[i] <- xbardash                            #  3. save the new data in an array
  }


  ## Return the p value
  # p = the fraction of fake data that is:
  #      larger than |sample mean of x|, or
  #    smaller than -|sample mean of x|

  (sum(z >= abs(dbar)) + sum(z <= -abs(dbar)))/nsim
}

— shadowtalker
fonte