Intuitivamente, come funziona il bootstrap selvaggio?


8

Sto cercando di capire l'intuizione dietro il selvaggio bootstrap. Che cosa sta realmente facendo? Devo essere in grado di capire cosa sta cercando di fare rispetto a una regressione convenzionale.

I miei dati hanno eteroschedasticità e il metodo che utilizzo fa 5000 repliche.

Come genera 5000 dati extra?

Risposte:


9

Diciamo che hai un set di allenamento T di n coppie di esempio (yi,xi).

Un normale bootstrap è un set B di n coppie di esempio (yri,xri), dove ri è una sequenza di n numeri interi casuali campionati uniformemente da 1 a n. In particolare, si noti che ogni esempio inB è esattamente lo stesso di uno degli esempi di Te alcuni si ripetono. Ma questo è un po 'strano, specialmente quando la variabile di risposta è continua, perché se ricampionassimo la popolazione originale, quasi sicuramente non otterremmo nemmeno un duplicato esatto , mentre è probabile che un bootstrap ne abbia molti.

Per evitare duplicati, abbiamo bisogno degli esempi di B non essere copie carbone di esempi daT, ma esempi piuttosto sintetici che assomigliano di più a ciò che vorremmo ottenere abbiamo campionato dalla popolazione originale. Ciò richiede di fare un presupposto sulla distribuzione della popolazione originale.

Se assumiamo l'omoschedasticità e adattiamo un modello lineare a T che ha residui eiallora possiamo costruire nuovi esempi sintetici sostituendo il residuo montato da ciascun esempio con il residuo di un diverso esempio di addestramento. Se i residui sono veramente evitati, non ci dovrebbero essere problemi a scambiarli uno con l'altro. Facciamo questa sostituzione sottraendo il residuo trovato per l'esempio di addestramento(yi,xi) e aggiungendo il residuo per qualche altro esempio:

(1)yi=yrieri+eri

Dove ri e risono due ricampionamenti diversi e indipendenti. Possiamo quindi formare il bootstrap nel solito modo:

(2)B={(yi,xi)}i=1n

Questo è chiamato bootstrap residuo e può essere considerato come la scelta di nuovi residui dalla funzione di distribuzione empirica dei residui.

Per allentare ulteriormente le ipotesi di iid e omoschedasticità, possiamo usare un bootstrap selvaggio , in cui calcoliamo la nuova variabile di risposta in modo ancora più casuale moltiplicando il residuo scelto casualmente per l'ennesima variabile casualevi.

(3)yi=yrieri+vieri

Spesso la distribuzione normale standard viN(0,1)viene utilizzato ma sono possibili altre opzioni. Ad esempio, a voltevi viene semplicemente scelto con uguale probabilità da {1,1}, che capovolge semplicemente casualmente il segno per metà del tempo, costringendo la distribuzione residua a essere simmetrica. Il punto è quello di ottenere esempi di addestramento più vicini a ciò che avremmo tratto dalla popolazione originale senza la replica artificiale introdotta dal bootstrap.


Quindi, in sostanza, generiamo errori che si comportano allo stesso modo dei residui effettivi e quindi otteniamo dati effettivi che si comportano allo stesso modo dei dati effettivi? Qualche libro di testo da raccomandare?
Francis Origi,

allora cosa, cosa facciamo con tutti questi dati extra? Come si fa a definire le statistiche t ecc.?
Francis Origi,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.