Ecco un esempio di stima di una media, , da dati continui normali. Prima di approfondire direttamente un esempio, però, vorrei rivedere alcuni dei calcoli matematici per i modelli di dati bayesiani normali-normali.θ
y1, . . . , yny= ( y1, . . . , yn)T
y1, . . . , yn| θ∼N( θ , σ2)
O come più tipicamente scritto da bayesiano,
y1, . . . , yn| θ∼N( θ , τ)
τ= 1 / σ2τ
yio
f( yio| θ,τ) = (√τ2 π) × e x p ( - τ( yio- θ )2/ 2 )
θ^= y¯
θ
θ ∼ N( a , 1 / b )
La distribuzione posteriore che otteniamo da questo modello di dati Normale-Normale (dopo molta algebra) è un'altra distribuzione Normale.
θ | y∼ N( bb + n τa + n τb + n τy¯, 1b + n τ)
b + n τun'y¯Bb + n τa + n τb + n τy¯
θ | yθθ
Detto questo, ora puoi usare qualsiasi esempio di libro di testo con dati normali per illustrare questo. Userò il set di dati airquality
all'interno di R. Considera il problema della stima della velocità media del vento (MPH).
> ## New York Air Quality Measurements
>
> help("airquality")
>
> ## Estimating average wind speeds
>
> wind = airquality$Wind
> hist(wind, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
>
> n = length(wind)
> ybar = mean(wind)
> ybar
[1] 9.957516 ## "frequentist" estimate
> tau = 1/sd(wind)
>
>
> ## but based on some research, you felt avgerage wind speeds were closer to 12 mph
> ## but probably no greater than 15,
> ## then a potential prior would be N(12, 2)
>
> a = 12
> b = 2
>
> ## Your posterior would be N((1/))
>
> postmean = 1/(1 + n*tau) * a + n*tau/(1 + n*tau) * ybar
> postsd = 1/(1 + n*tau)
>
> set.seed(123)
> posterior_sample = rnorm(n = 10000, mean = postmean, sd = postsd)
> hist(posterior_sample, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
> abline(v = median(posterior_sample))
> abline(v = ybar, lty = 3)
>
> median(posterior_sample)
[1] 10.00324
> quantile(x = posterior_sample, probs = c(0.025, 0.975)) ## confidence intervals
2.5% 97.5%
9.958984 10.047404
In questa analisi, il ricercatore (tu) può dire che dati dati + informazioni precedenti, la tua stima del vento medio, usando il 50 ° percentile, le velocità dovrebbero essere 10,00324, maggiore del semplice uso della media dai dati. È inoltre possibile ottenere una distribuzione completa, dalla quale è possibile estrarre un intervallo credibile del 95% utilizzando i quantili 2.5 e 97.5.
Di seguito includo due riferimenti, consiglio vivamente di leggere il cortometraggio di Casella. Si rivolge specificamente ai metodi empirici di Bayes, ma spiega la metodologia bayesiana generale per i modelli normali.
Riferimenti:
Casella, G. (1985). Un'introduzione all'analisi empirica dei dati di Bayes. The American Statistician, 39 (2), 83-87.
Gelman, A. (2004). Analisi dei dati bayesiani (2a edizione, testi in scienze statistiche). Boca Raton, Fla .: Chapman & Hall / CRC.