Test di ipotesi Bootstrap vs. permutazione


37

Esistono diverse tecniche di ricampionamento popolari, che vengono spesso utilizzate nella pratica, come bootstrap, test di permutazione, coltello a serramanico, ecc. Ci sono numerosi articoli e libri che discutono di queste tecniche, ad esempio Philip I Good (2010) Test di permutazione, parametri e Bootstrap di ipotesi

La mia domanda è: quale tecnica di ricampionamento ha guadagnato più popolarità e più facile da implementare? Test di bootstrap o permutazione?


8
La popolarità non è certo una buona misura della qualità. A giudicare dal numero di citazioni (clienti), McDonalds è un ristorante molto più popolare (migliore?) Di qualsiasi stabilimento a tre stelle Michelin. Porterai il prossimo oratore del seminario a McDonalds, allora?
StasK

Risposte:


68

Entrambi sono popolari e utili, ma principalmente per usi diversi. Il test di permutazione è il migliore per verificare le ipotesi e il bootstrap è il migliore per stimare gli intervalli di confidenza.

I test di permutazione verificano una specifica ipotesi nulla di scambiabilità, vale a dire che solo il campionamento / randomizzazione casuale spiega la differenza osservata. Questo è il caso comune di cose come t-test e ANOVA. Può anche essere esteso a cose come serie temporali (ipotesi nulla che non vi sia alcuna correlazione seriale) o regressione (ipotesi nulla di nessuna relazione). I test di permutazione possono essere utilizzati per creare intervalli di confidenza, ma richiedono molte più ipotesi, che possono o meno essere ragionevoli (quindi sono preferiti altri metodi). Il test Mann-Whitney / Wilcoxon è in realtà un caso speciale di test di permutazione, quindi sono molto più popolari di quanto alcuni pensino.

Il bootstrap stima la variabilità del processo di campionamento e funziona bene per stimare gli intervalli di confidenza. È possibile eseguire un test di ipotesi in questo modo, ma tende ad essere meno potente del test di permutazione per i casi in cui valgono le ipotesi del test di permutazione.


2
Grazie per la risposta. Perché l'intervallo di confidenza del bootstrap è meno potente del test di permutazione? Quanto? Si possono caratterizzare le situazioni in cui è significativamente meno potente? Sembra un vantaggio essere in grado di mostrare un intervallo di confidenza, quindi in questo senso il bootstrap sembra più prezioso.
dfrankow,

2
@dfrankow, i 2 metodi usano ipotesi diverse. Per campioni di grandi dimensioni e differenze andranno entrambi bene, ma con campioni / differenze più piccoli il test di permutazione ha maggiori probabilità di trovare differenze ed essere appropriato. Vedi questa risposta: stats.stackexchange.com/questions/112147/… per esempi in cui il bootstrap non è nemmeno dimensionato correttamente (rifiuta troppo spesso quando il valore nullo è vero).
Greg Snow,

Un test di permutazione non è una variazione del bootstrap?
Vicki B,

I test @VickiB, Bootstrapping e Permutation sono spesso citati insieme, ma i campioni boostrapping con campioni di sostituzione e permutazione senza sostituzione fanno la differenza in ciò che possono fare e quanto sono potenti.
Greg Snow,


8

La mia domanda è: quale tecnica di ricampionamento ha guadagnato maggiore popolarità
Bootstrap o test di permutazione?

  1. Il bootstrap consiste principalmente nel generare errori standard di grandi dimensioni o intervalli di confidenza; i test di permutazione come suggerisce il nome riguardano principalmente i test. (Ognuno può essere adattato per essere utilizzato per l'altro compito.)

  2. Come giudicheremmo la popolarità? Se guardiamo a campi come la psicologia e l'educazione possiamo trovare un ampio uso di test basati sui ranghi come Wilcoxon-Mann-Whitney, i test dei ranghi firmati, i test di correlazione dei ranghi e così via. Questi sono tutti test di permutazione (d'altra parte ci sono molti casi in cui invece potrebbero essere utilizzati test di permutazione dei dati originali ma di solito non lo sono). In alcune altre aree di applicazione, i test di permutazione sarebbero usati raramente, ma la popolarità variabile tra le aree di applicazione a volte dice più sulla cultura locale di qualsiasi area che utilità.

più facile da implementare?

In molti casi - soprattutto quelli più semplici - sono quasi ugualmente facili - è essenzialmente la differenza tra campionamento con sostituzione e campionamento senza sostituzione.

In alcuni dei casi più complessi, il bootstrap è più facile da fare perché (osservandolo dal punto di vista del test) opera in alternativa piuttosto che in null (almeno lo saranno le implementazioni ingenue - facendolo in modo che funzioni bene potrebbe essere molto più complicato).

I test di permutazione esatta possono essere difficili nei casi più complessi perché una quantità scambiabile adeguata può non essere osservabile - spesso una quantità quasi intercambiabile può essere sostituita al prezzo di esattezza (e di essere veramente esente da distribuzione).

Il bootstrap rinuncia essenzialmente al criterio di esattezza corrispondente (copertura esatta degli intervalli) fin dall'inizio, e si concentra invece sul tentativo di ottenere una copertura ragionevolmente buona in campioni di grandi dimensioni (a volte con meno successo di quanto si possa capire; se non hai controllato, don supponiamo che il tuo bootstrap dia la copertura che ti aspetti che sia).

I test di permutazione possono funzionare su piccoli campioni (sebbene la scelta limitata di livelli di significatività a volte possa essere un problema con campioni molto piccoli), mentre il bootstrap è una tecnica di campionamento di grandi dimensioni (se lo si utilizza con campioni piccoli, in molti casi i risultati potrebbero non essere essere molto utile).

Raramente li vedo come concorrenti sullo stesso problema e li ho usati su (diversi) problemi reali - spesso ci sarà una scelta naturale di quale guardare.

Ci sono benefici per entrambi, ma nessuno dei due in una panacaea. Se speri di ridurre lo sforzo di apprendimento concentrandoti solo su uno di essi, probabilmente rimarrai deluso: entrambi sono parti essenziali della cassetta degli attrezzi del ricampionamento.


1
Potresti chiarire che cosa significa " una quantità intercambiabile adeguata potrebbe non essere osservabile "? (+1 ovviamente)
usεr11852 dice Reinstate Monic il

1
Considera di provare a condurre un test di permutazione in un esperimento con due fattori e una covariata (o considera semplicemente una regressione con diversi predittori). Con l'indipendenza e con un nulla o nessun effetto, le osservazioni sono scambiabili e puoi quindi verificare quell'ipotesi ma non hai un modo per costruire un test di permutazione solo dei fattori (poiché ti aspetti che la covariata abbia un effetto e testarlo essendo nullo non è interessante); allo stesso modo non è possibile costruire un test di permutazione di uno solo dei due fattori. ... ctd
Glen_b -Restate Monica

1
ctd ... C'è un'evidente quantità intercambiabile se conosci i coefficienti di popolazione che non stai testando (e gli errori sarebbero sempre scambiabili) ma non puoi osservare quelle cose. Se si sostituiscono le stime dei coefficienti o degli errori (cioè i residui) le quantità sono più sostituibili. Tuttavia in alcune condizioni particolari sarebbero approssimativamente intercambiabili (alcune persone sostengono di fare esattamente questo) .... e se lo fai, finisci con qualcosa di simile a un bootstrap ma con campionamento senza sostituzione invece di campionamento con sostituzione.
Glen_b

Grazie; Ci penserò attentamente. Ho il sospetto che ci sia qualcosa di più profondo da imparare qui. :)
usεr11852 dice Reinstate Monic il

1
@NULL per qualche motivo ho perso la tua richiesta di riferimento. Per un punto di partenza, alcuni dei riferimenti qui dovrebbero fare: davegiles.blogspot.com/2019/04/…
Glen_b -Reinstate Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.