Come si formalizza una distribuzione di probabilità precedente? Ci sono regole empiriche o suggerimenti che dovresti usare?

Mentre mi piace pensare di avere una buona conoscenza del concetto di informazione precedente nell'analisi statistica bayesiana e nel processo decisionale, spesso ho difficoltà a avvolgere la testa attorno alla sua applicazione. Ho in mente un paio di situazioni che esemplificano le mie lotte e sento che non sono state affrontate correttamente nei libri di testo statistici bayesiani che ho letto finora:

Diciamo che ho condotto un sondaggio alcuni anni fa che afferma che il 68% delle persone sarebbe interessato all'acquisto di un prodotto ACME. Decido di eseguire nuovamente il sondaggio. Mentre userò le stesse dimensioni del campione dell'ultima volta (diciamo, n = 400), le opinioni delle persone sono probabilmente cambiate da allora. Tuttavia, se uso come un precedente con una distribuzione beta in cui 272 intervistati su 400 hanno risposto "sì", darei lo stesso peso al sondaggio che ho eseguito qualche anno fa e quello che avrei eseguito ora. Esiste una regola empirica per stabilire la maggiore incertezza che vorrei porre sul priore in virtù del fatto che quei dati hanno qualche anno? Capisco di poter semplicemente ridurre il precedente dal 272/400 a, diciamo, 136/200, ma questo sembra estremamente arbitrario e mi chiedo se ci sia qualche forma di giustificazione, forse in letteratura,

Per un altro esempio, supponiamo che stiamo per eseguire una sperimentazione clinica. Prima di avviare la sperimentazione, eseguiamo alcune ricerche secondarie che potremmo utilizzare come informazioni preliminari, tra cui pareri di esperti, risultati di precedenti sperimentazioni cliniche (di varia rilevanza), altri fatti scientifici di base, ecc. Come si fa a combinare quello spettro di informazioni (alcuni dei quali di natura non quantitativa) a una distribuzione di probabilità precedente? È solo un caso di prendere una decisione su quale famiglia scegliere e renderla abbastanza diffusa da garantire che venga sopraffatta dai dati o è stato fatto molto lavoro per stabilire una distribuzione preventiva abbastanza informativa?

— Phil
fonte

Vedi stats.stackexchange.com/questions/1/…

— Tim

La tua idea di trattare le tue informazioni precedenti su 272 successi in 400 tentativi ha una giustificazione bayesiana abbastanza solida.

$\theta$

π (θ) = \frac{Γ (α_{0} + β_{0})}{Γ (α_{0}) Γ (β_{0})} θ^{α_{0} - 1} (1 - θ)^{β_{0} - 1}

$\pi(\theta)=\frac{\Gamma(\alpha_0+\beta_0)}{\Gamma(\alpha_0)\Gamma(\beta_0)}\theta^{\alpha_0-1}(1-\theta)^{\beta_0-1}$

\underline{n} = α_{0} + β_{0} - 2

$\underline{n}=\alpha_0+\beta_0-2$

\underline{n}

$\underline{n}$

α_{0} - 1

$\alpha_0-1$

π (θ) = \frac{Γ (α_{0} + β_{0})}{Γ (α_{0}) Γ (β_{0})} θ^{α_{0} - 1} (1 - θ)^{\underline{n} - (α_{0} - 1)}

$\pi(\theta)=\frac{\Gamma(\alpha_0+\beta_0)}{\Gamma(\alpha_0)\Gamma(\beta_0)}\theta^{\alpha_0-1}(1-\theta)^{\underline{n}-(\alpha_0-1)}$

α_{0} + β_{0} - 2 = 400

$\alpha_0+\beta_0-2=400$

α_{0} - 1 = 272

$\alpha_0-1=272$

α_{0} = 273

$\alpha_0=273$

β_{0} = 129

$\beta_0=129$

α_{0} = 137

$\alpha_0=137$

β_{0} = 65

$\beta_0=65$

μ = \frac{α}{α + β} e σ^{2} = \frac{α β}{(α + β)^{2} (α + β + 1)}

$\mu=\frac{\alpha}{\alpha+\beta}\qquad\text{and}\qquad\sigma^2=\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}$

alpha01 <- 273
beta01 <- 129
(mean01 <- alpha01/(alpha01+beta01))

alpha02 <- 137
beta02 <- 65
(mean02 <- alpha02/(alpha02+beta02))

ma aumenta la varianza precedente da

(priorvariance01 <- (alpha01*beta01)/((alpha01+beta01)^2*(alpha01+beta01+1)))
[1] 0.0005407484

per

(priorvariance02 <- (alpha02*beta02)/((alpha02+beta02)^2*(alpha02+beta02+1)))
[1] 0.001075066

come desiderato.

— Christoph Hanck
fonte