Il bootstrap viene eseguito per ottenere un'immagine più solida della distribuzione del campionamento rispetto a quella assunta dalla teoria dei campioni di grandi dimensioni. Quando si avvia il bootstrap, non vi è effettivamente alcun limite al numero di "bootsample" che si prendono; in effetti si ottiene una migliore approssimazione alla distribuzione del campionamento più stivali si prende. È comune usare bootcamp, anche se non c'è nulla di magico in quel numero. Inoltre, non si esegue un test su bootsamples; hai una stima della distribuzione campionaria - usala direttamente. Ecco un algoritmo:B=10,000
- prendere un bootstamp di un set di dati campionando osservazioni di avvio con sostituzione. [Per quanto riguarda i commenti qui sotto, una domanda rilevante è cosa costituisce una valida "osservazione di avvio" da usare per il tuo bootcampo. In effetti, ci sono diversi approcci legittimi; Ne citerò due che sono robusti e ti consentono di rispecchiare la struttura dei tuoi dati: quando hai dati osservativi (cioè, i dati sono stati campionati su tutte le dimensioni, un'osservazione di avvio può essere una n-tupla ordinata (ad esempio, una riga dal tuo set di dati. Ad esempio, se hai una variabile predittore e una variabile di risposta, campionerai n 1 ( x , y )n1n1 (x,y)Coppie ordinate. D'altra parte, quando si lavora con dati sperimentali, i valori delle variabili predittive non sono stati campionati, ma le unità sperimentali sono state assegnate ai livelli previsti di ciascuna variabile predittore. In un caso come questo, puoi campionare valori y all'interno di ciascuno dei livelli j della tua variabile predittore, quindi accoppiare quelli y con il valore corrispondente di quel livello predittore. In questo modo, non eseguire il campionamento su X. ]n1j yjyX
- misura il vostro modello di regressione e memorizzare la stima pendenza (lo chiamano beta 1 )β^1
- prendere un bootstamp di altri set di dati campionando osservazioni di avvio con sostituzionen2
- montare l'altro modello di regressione e memorizzare la stima pendenza (chiamano  2 )β^2
- formare una statistica delle due stime (suggerimento: utilizzare la differenza di pendenza β 1 - β 2 )β^1−β^2
- memorizzare la statistica e scaricare le altre informazioni per non sprecare memoria
- ripetere i passaggi 1 - 6, volteB=10,000
- ordina la distribuzione campionata bootstrap delle differenze di pendenza
- calcola la% della bsd che si sovrappone a 0 (qualunque sia la più piccola, la coda destra% o la coda sinistra%)
- moltiplica questa percentuale per 2
La logica di questo algoritmo come test statistico è fondamentalmente simile ai test classici (ad esempio, test t) ma non si presume che i dati o le distribuzioni di campionamento risultanti abbiano una distribuzione particolare. (Ad esempio, non stai assumendo la normalità.) Il presupposto principale che stai formulando è che i tuoi dati siano rappresentativi della popolazione da cui hai campionato / a cui desideri generalizzare. Cioè, la distribuzione del campione è simile alla distribuzione della popolazione. Nota che, se i tuoi dati non sono correlati alla popolazione che ti interessa, sei sfortunato.
Alcune persone si preoccupano di utilizzare, ad esempio, un modello di regressione per determinare la pendenza se non si è disposti ad assumere la normalità. Tuttavia, questa preoccupazione è errata. Il teorema di Gauss-Markov ci dice che la stima è imparziale (cioè centrata sul valore reale), quindi va bene. La mancanza di normalità significa semplicemente che la vera distribuzione del campionamento può essere diversa da quella teoricamente posta, e quindi i valori p non sono validi. La procedura di bootstrap ti offre un modo per affrontare questo problema.
Altre due questioni relative al bootstrap: Se vengono soddisfatti i presupposti classici, il bootstrap è meno efficiente (ovvero ha meno potenza) di un test parametrico. In secondo luogo, il bootstrap funziona meglio quando si esplora vicino al centro di una distribuzione: i mezzi e le mediane sono buoni, i quartili non sono così buoni, il bootstrap del minimo o del massimo necessariamente falliscono. Per quanto riguarda il primo punto, potrebbe non essere necessario eseguire il bootstrap nella propria situazione; per quanto riguarda il secondo punto, il bootstrap della pendenza va benissimo.