Il bootstrap (frequentista) considera i dati come una ragionevole approssimazione alla distribuzione della popolazione sconosciuta. Pertanto, la distribuzione campionaria di una statistica (una funzione dei dati) può essere approssimata ricampionando ripetutamente le osservazioni con la sostituzione e calcolando la statistica per ciascun campione.
Sia denota i dati originali. (Nell'esempio fornito, n = 5 ). Sia y b = ( y b 1 , … , y b n ) denota un campione bootstrap. Tale campione avrà probabilmente alcune osservazioni ripetute una o più volte e altre osservazioni saranno assenti. La media del campione bootstrap è data da m b = 1y= ( y1, ... , yn)n = 5yB= ( yB1, ... , yBn)È la distribuzione dimbsu un numero di repliche bootstrap che viene utilizzata per approssimare la distribuzione campionaria dalla popolazione sconosciuta.
mB= 1nΣi = 1nyBio.
mB
Per comprendere la connessione tra il bootstrap frequentista e il bootstrap bayesiano, è istruttivo vedere come calcolare da una prospettiva diversa.mB
In ogni campione bootstrap , ogni osservazione y i si verifica ovunque da 0 a n volte. Let h b i indicano il numero di volte y i avviene in y b , e lasciate h b = ( h b 1 , ... , h b n ) . Quindi h b i ∈ { 0 , 1 , … , n - 1 , n }yByionhBioyioyBhB= ( hB1, ... , hBn)hBio∈ { 0 , 1 , … , n - 1 , n }e . Dato h b , possiamo costruire una raccolta di pesi non negativi che si sommano a uno: w b = h b / n , dove w b i = h b i / n . Con questa notazione possiamo riesprimere la media del campione bootstrap come
m b = n ∑ i = 1 w b iΣni = 1hBio= nhBwB= hB/ nwBio= hBio/ n
mB= ∑i = 1nwBioyio.
Il modo in cui le osservazioni vengono scelte per un campione bootstrap determina la distribuzione congiunta per . In particolare, h b ha una distribuzione multinomiale e quindi ( nwBhBPertanto, possiamo calcolare m b disegnando w b dalla sua distribuzione e calcolando il prodotto punto con y . Da questa nuova prospettiva, sembra che le osservazioni sianofissementre i pesi variano.
( nwB) ∼ Multinomiale ( n , ( 1 / n )ni = 1) .
mBwBy
Nell'inferenza bayesiana, le osservazioni sono effettivamente considerate fisse, quindi questa nuova prospettiva sembra congeniale all'approccio bayesiano. In effetti, il calcolo della media secondo il bootstrap bayesiano differisce solo nella distribuzione dei pesi. (Tuttavia, da un punto di vista concettuale, il bootstrap bayesiano è abbastanza diverso dalla versione frequentista.) I dati sono fissi e i pesi w sono i parametri sconosciuti. Potremmo essere interessati ad alcune funzionalità dei dati che dipendono da parametri sconosciuti:
μ = n ∑ i = 1 w iyw
μ = ∑i = 1nwioyio.
Ecco uno schizzo in miniatura del modello dietro il bootstrap bayesiano: La distribuzione campionaria per le osservazioni è multinomiale e il precedente per i pesi è una distribuzione Dirichlet limitante che mette tutto il suo peso sui vertici del simplex. (Alcuni autori si riferiscono a questo modello come modello di probabilità multinomiale .)
w ∼ Dirichlet ( 1 , … , 1 ) .
μwy
Σi = 1nwiog( yio, θ ) = 0-,
g( yio, θ )θ0-θywwprobabilità empirica e metodo generalizzato dei momenti (GMM).)
Σi = 1nwio( yio- μ ) = 0.
θ = ( μ , v )g( yio, θ ) = ( yio- μ( yio- μ )2- v) .