Bootstrapping vs Bayesian Bootstrapping concettualmente?

Ho difficoltà a capire cos'è un processo di bootstrap bayesiano e come ciò differirebbe dal normale bootstrap. E se qualcuno potesse offrire una revisione / confronto intuitivo / concettuale di entrambi, sarebbe fantastico.

Facciamo un esempio.

Supponiamo di avere un set di dati X che è [1,2,5,7,3].

Se campioniamo con la sostituzione più volte per creare dimensioni del campione uguali alla dimensione di X (quindi [7,7,2,5,7], [3,5,2,2,7], ecc.), E quindi calcolare il mezzo di ciascuno, è che la distribuzione bootstrap del campione di esempio?

Quale sarebbe la distribuzione bayesiana del bootstrap?

E come viene fatta la distribuzione bayesiana del bootstrap di altri parametri (varianza, ecc.) Allo stesso modo?

bayesian sampling bootstrap

— SpicyClubSauce
fonte

Vedi sumsar.net/blog/2015/04/… e projecteuclid.org/euclid.aos/1176345338 , forse @ rasmus-bååth può risponderti;)

— Tim

Il bootstrap (frequentista) considera i dati come una ragionevole approssimazione alla distribuzione della popolazione sconosciuta. Pertanto, la distribuzione campionaria di una statistica (una funzione dei dati) può essere approssimata ricampionando ripetutamente le osservazioni con la sostituzione e calcolando la statistica per ciascun campione.

Sia denota i dati originali. (Nell'esempio fornito, ). Sia denota un campione bootstrap. Tale campione avrà probabilmente alcune osservazioni ripetute una o più volte e altre osservazioni saranno assenti. La media del campione bootstrap è data da $y = (y_1,\ldots,y_n)$ $n=5$ $y^b = (y_1^b, \ldots, y_n^b)$ È la distribuzione disu un numero di repliche bootstrap che viene utilizzata per approssimare la distribuzione campionaria dalla popolazione sconosciuta.

m_{B} = \frac{1}{n} Σ_{io = 1}^{n} y_{io}^{B} .

$m_b = \frac{1}{n} \sum_{i=1}^n y_i^b.$

m_{b}

$m_b$

Per comprendere la connessione tra il bootstrap frequentista e il bootstrap bayesiano, è istruttivo vedere come calcolare da una prospettiva diversa. $m_b$

In ogni campione bootstrap , ogni osservazione verifica ovunque da 0 a volte. Let indicano il numero di volte avviene in , e lasciate . Quindi $y^b$ $y_i$ $n$ $h_i^b$ $y_i$ $y^b$ $h^b = (h_1^b, \ldots, h_n^b)$ $h_i^b \in \{0, 1, \ldots, n-1,n\}$ e . Dato , possiamo costruire una raccolta di pesi non negativi che si sommano a uno: , dove . Con questa notazione possiamo riesprimere la media del campione bootstrap come $\sum_{i=1}^n h_i^b = n$ $h^b$ $w^b = h^b/n$ $w_i^b = h_i^b/n$

m_{B} = Σ_{io = 1}^{n} w_{io}^{B} y_{io} .

$m_b = \sum_{i=1}^n w_i^b\, y_i.$

Il modo in cui le osservazioni vengono scelte per un campione bootstrap determina la distribuzione congiunta per . In particolare, ha una distribuzione multinomiale e quindi $w^b$ $h^b$ Pertanto, possiamo calcolare disegnando dalla sua distribuzione e calcolando il prodotto punto con . Da questa nuova prospettiva, sembra che le osservazioni sianofissementre i pesi variano.

(n w^{B}) ~ multinomiale (n, (1 / n)_{io = 1}^{n}) .

$(n\,w^b) \sim \textsf{Multinomial}(n,(1/n)_{i=1}^n).$

m_{b}

$m_b$

w^{b}

$w^b$

y

$y$

Nell'inferenza bayesiana, le osservazioni sono effettivamente considerate fisse, quindi questa nuova prospettiva sembra congeniale all'approccio bayesiano. In effetti, il calcolo della media secondo il bootstrap bayesiano differisce solo nella distribuzione dei pesi. (Tuttavia, da un punto di vista concettuale, il bootstrap bayesiano è abbastanza diverso dalla versione frequentista.) I dati sono fissi e i pesi sono i parametri sconosciuti. Potremmo essere interessati ad alcune funzionalità dei dati che dipendono da parametri sconosciuti: $y$ $w$

μ = Σ_{io = 1}^{n} w_{io} y_{io} .

$\mu = \sum_{i=1}^n w_i\, y_i.$

Ecco uno schizzo in miniatura del modello dietro il bootstrap bayesiano: La distribuzione campionaria per le osservazioni è multinomiale e il precedente per i pesi è una distribuzione Dirichlet limitante che mette tutto il suo peso sui vertici del simplex. (Alcuni autori si riferiscono a questo modello come modello di probabilità multinomiale .)

w ~ Dirichlet (1, ..., 1) .

$w \sim \textsf{Dirichlet}(1,\ldots,1).$

$\mu$ $w$ $y$

Σ_{io = 1}^{n} w_{io} g (y_{io}, θ) = \underline{0},

$\sum_{i=1}^n w_i\, g(y_i,\theta) = \underline 0,$

g (y_{i}, θ)

$g(y_i,\theta)$

θ

$\theta$

\underline{0}

$\underline 0$

θ

$\theta$

y

$y$

w

$w$

w

$w$ probabilità empirica e metodo generalizzato dei momenti (GMM).)

Σ_{io = 1}^{n} w_{io} (y_{io} - μ) = 0.

$\sum_{i=1}^n w_i\,(y_i - \mu) = 0.$

θ = (μ, v)

$\theta = (\mu,v)$

g (y_{io}, θ) = (\begin{matrix} y_{io} - μ \\ (y_{io} - μ)^{2} - v \end{matrix}) .

$g(y_i,\theta) = \begin{pmatrix} y_i - \mu \\ (y_i - \mu)^2 - v \end{pmatrix}.$

— mef
fonte

Grazie per la descrizione molto dettagliata. Personalmente gradirei una breve dichiarazione su quando scegliere ciascuno di essi.

— ErichBSchulz,