Come eseguire un test bootstrap per confrontare le medie di due campioni?


12

Ho due campioni fortemente distorti e sto cercando di usare il bootstrap per confrontare i loro mezzi usando la statistica t.

Qual è la procedura corretta per farlo?


Il processo che sto usando

Sono preoccupato per l'adeguatezza dell'uso dell'errore standard dei dati originali / osservati nella fase finale quando so che questo non è normalmente distribuito.

Ecco i miei passi:

  • Bootstrap - campione casuale con sostituzione (N = 1000)
  • Calcola la statistica t per ogni bootstrap per creare una distribuzione t:
    T(b)=(X¯b1X¯b2)(X¯1X¯2)σxb12/n+σxb22/n
  • Stimare gli intervalli di confidenza ottenendo e 1 - α / 2 percentili di distribuzione tα/21α/2
  • Ottieni intervalli di confidenza tramite:

    CIL=(X¯1X¯2)T_CIL.SEoriginal
    CIU=(X¯1X¯2)+T_CIU.SEoriginal
    SE=σX12/n+σX22/n
  • Guarda dove cadono gli intervalli di confidenza per determinare se c'è una differenza significativa nelle medie (cioè diversa da zero)

Ho anche esaminato la somma dei ranghi di Wilcoxon ma non sta dando risultati molto ragionevoli a causa della distribuzione molto distorta (ad esempio il 75 ° == 95 ° percentile). Per questo motivo, vorrei esplorare ulteriormente il test t di bootstrap.

Quindi le mie domande sono:

  1. È una metodologia appropriata?
  2. È appropriato utilizzare la SE dei dati osservati quando so che è fortemente distorta?

Possibile duplicato: quale metodo è preferito, un test di bootstrap o un test non parametrico basato su rango?


Quanto sono grandi i campioni?
Michael M,

@Michael Mayer Circa 800
CatsLoveJazz

Risposte:


16

Vorrei solo fare un normale test bootstrap:

  • calcola la statistica t nei tuoi dati e salvala
  • modificare i dati in modo tale che l'ipotesi nulla sia vera. In questo caso, sottrarre la media nel gruppo 1 per il gruppo 1 e aggiungere la media complessiva, e fare lo stesso per il gruppo 2, in questo modo le medie in entrambi i gruppi saranno la media complessiva.
  • Prendi campioni bootstrap da questo set di dati, probabilmente nell'ordine di 20.000.
  • calcola la statistica t in ciascuno di questi campioni bootstrap. La distribuzione di queste statistiche t è la stima bootstrap della distribuzione campionaria della statistica t nei dati distorti se l'ipotesi nulla è vera.
  • p(+1)(+1)

Puoi leggere di più al riguardo in:

  • Capitolo 4 di AC Davison e DV Hinkley (1997) Metodi Bootstrap e loro applicazione . Cambridge: Cambridge University Press.

  • Capitolo 16 di Bradley Efron e Robert J. Tibshirani (1993) An Introduction to the Bootstrap . Boca Raton: Chapman & Hall / CRC.

  • Voce di Wikipedia sul test di ipotesi bootstrap.


Questo è essenzialmente ciò che sto facendo, ma osservando la percentuale di volte che la statistica t originale / osservata è> = statistica t scaricata. Va bene fare un test t su dati fortemente distorti in prima istanza, però, questo è uno dei motivi per cui voglio fare il boostrap.
CatsLoveJazz

2
Tecnicamente, per il test bootstrap hai solo bisogno di una statistica test quindi questo non è un problema. Sostanzialmente, un test t confronta le medie e nei dati distorti le mediane sono spesso più significative delle medie. Quindi un test che confronta le mediane invece dei mezzi può avere più senso. Tuttavia, ciò dipende dalla tua ipotesi nulla, che è la tua scelta e solo la tua scelta.
Maarten Buis,

Ok grazie, è il mezzo che vogliamo testare dato che tutti gli altri nostri output sono stati in questa forma.
CatsLoveJazz
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.