Bootstrapping vs Bayesian Bootstrapping concettualmente?


21

Ho difficoltà a capire cos'è un processo di bootstrap bayesiano e come ciò differirebbe dal normale bootstrap. E se qualcuno potesse offrire una revisione / confronto intuitivo / concettuale di entrambi, sarebbe fantastico.

Facciamo un esempio.

Supponiamo di avere un set di dati X che è [1,2,5,7,3].

Se campioniamo con la sostituzione più volte per creare dimensioni del campione uguali alla dimensione di X (quindi [7,7,2,5,7], [3,5,2,2,7], ecc.), E quindi calcolare il mezzo di ciascuno, è che la distribuzione bootstrap del campione di esempio?

Quale sarebbe la distribuzione bayesiana del bootstrap?

E come viene fatta la distribuzione bayesiana del bootstrap di altri parametri (varianza, ecc.) Allo stesso modo?


4
Vedi sumsar.net/blog/2015/04/… e projecteuclid.org/euclid.aos/1176345338 , forse @ rasmus-bååth può risponderti;)
Tim

Risposte:


27

Il bootstrap (frequentista) considera i dati come una ragionevole approssimazione alla distribuzione della popolazione sconosciuta. Pertanto, la distribuzione campionaria di una statistica (una funzione dei dati) può essere approssimata ricampionando ripetutamente le osservazioni con la sostituzione e calcolando la statistica per ciascun campione.

Sia denota i dati originali. (Nell'esempio fornito, n = 5 ). Sia y b = ( y b 1 , , y b n ) denota un campione bootstrap. Tale campione avrà probabilmente alcune osservazioni ripetute una o più volte e altre osservazioni saranno assenti. La media del campione bootstrap è data da m b = 1y=(y1,...,yn)n=5yB=(y1B,...,ynB)È la distribuzione dimbsu un numero di repliche bootstrap che viene utilizzata per approssimare la distribuzione campionaria dalla popolazione sconosciuta.

mB=1nΣio=1nyioB.
mB

Per comprendere la connessione tra il bootstrap frequentista e il bootstrap bayesiano, è istruttivo vedere come calcolare da una prospettiva diversa.mB

In ogni campione bootstrap , ogni osservazione y i si verifica ovunque da 0 a n volte. Let h b i indicano il numero di volte y i avviene in y b , e lasciate h b = ( h b 1 , ... , h b n ) . Quindi h b i{ 0 , 1 , , n - 1 , n }yByionhioByioyBhB=(h1B,...,hnB)hioB{0,1,...,n-1,n}e . Dato h b , possiamo costruire una raccolta di pesi non negativi che si sommano a uno: w b = h b / n , dove w b i = h b i / n . Con questa notazione possiamo riesprimere la media del campione bootstrap come m b = n i = 1 w b iΣio=1nhioB=nhBwB=hB/nwioB=hioB/n

mB=Σio=1nwioByio.

Il modo in cui le osservazioni vengono scelte per un campione bootstrap determina la distribuzione congiunta per . In particolare, h b ha una distribuzione multinomiale e quindi ( nwBhBPertanto, possiamo calcolare m b disegnando w b dalla sua distribuzione e calcolando il prodotto punto con y . Da questa nuova prospettiva, sembra che le osservazioni sianofissementre i pesi variano.

(nwB)~multinomiale(n,(1/n)io=1n).
mBwBy

Nell'inferenza bayesiana, le osservazioni sono effettivamente considerate fisse, quindi questa nuova prospettiva sembra congeniale all'approccio bayesiano. In effetti, il calcolo della media secondo il bootstrap bayesiano differisce solo nella distribuzione dei pesi. (Tuttavia, da un punto di vista concettuale, il bootstrap bayesiano è abbastanza diverso dalla versione frequentista.) I dati sono fissi e i pesi w sono i parametri sconosciuti. Potremmo essere interessati ad alcune funzionalità dei dati che dipendono da parametri sconosciuti: μ = n i = 1 w iyw

μ=Σio=1nwioyio.

Ecco uno schizzo in miniatura del modello dietro il bootstrap bayesiano: La distribuzione campionaria per le osservazioni è multinomiale e il precedente per i pesi è una distribuzione Dirichlet limitante che mette tutto il suo peso sui vertici del simplex. (Alcuni autori si riferiscono a questo modello come modello di probabilità multinomiale .)

w~Dirichlet(1,...,1).

μwy

Σio=1nwiog(yio,θ)=0_,
g(yio,θ)θ0_θywwprobabilità empirica e metodo generalizzato dei momenti (GMM).)

Σio=1nwio(yio-μ)=0.
θ=(μ,v)
g(yio,θ)=(yio-μ(yio-μ)2-v).

1
Grazie per la descrizione molto dettagliata. Personalmente gradirei una breve dichiarazione su quando scegliere ciascuno di essi.
ErichBSchulz,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.