Quante facce ha un dado? Inferenza bayesiana in JAGS

Problema

Vorrei fare una certa deduzione su un sistema analogo a morire con un numero sconosciuto di lati. Il dado viene lanciato più volte, dopo di che desidero inferire una distribuzione di probabilità su un parametro corrispondente al numero di lati del dado, θ.

Intuizione

Se dopo 40 tiri hai osservato 10 rossi, 10 blu, 10 verdi e 10 gialli, sembra che θ dovrebbe raggiungere il picco a 4, e la tendenza al rotolamento di ogni lato sono distribuzioni centrate su 1/4.

θ ha un limite inferiore banale, essendo il numero di lati diversi osservati nei dati.

Il limite superiore è ancora sconosciuto. Potrebbe esserci un quinto lato che probabilmente avrebbe un basso pregiudizio. Più dati osservi mancano di una quinta categoria, maggiore è la probabilità posteriore di θ = 4.

Approccio

Ho usato JAGS per problemi simili (tramite R e rjags) che qui sembrano appropriati.

Rispetto ai dati, diciamo obs <- c(10, 10, 10, 10)che corrisponda alle osservazioni nell'esempio sopra.

Penso che le osservazioni dovrebbero essere modellate con una distribuzione multinomiale obs ~ dmulti(p, n), dove p ~ ddirch(alpha)e n <- length(obs).

θ è collegato al numero di categorie implicite alpha, quindi come posso modellare alphaper includere diversi possibili numeri di categorie?

Alternative?

Sono abbastanza nuovo nelle analisi bayesiane, quindi potrebbe abbaiare completamente l'albero sbagliato, ci sono modelli alternativi che potrebbero fornire approfondimenti diversi su questo problema?

Grazie molto! David

r probability bayesian jags

— davipatti
fonte

Questo è un problema interessante chiamato "campionamento delle specie", che ha ricevuto molta attenzione nel corso degli anni e comprende molti altri problemi di stima (come la ricaduta dei segni). Basti dire che JAGS non ti aiuterà in questo caso - JAGS non può gestire catene di Markov con una dimensione variabile tra le iterazioni. È necessario ricorrere a uno schema MCMC progettato per tali problemi, come MCMC a salto reversibile.

Ecco un approccio adatto al modello specifico che stai descrivendo, che ho incontrato per la prima volta nel lavoro di Jeff Miller ( arxived ).

Parte I (domanda originale)

Un presupposto che farò è che un'osservazione di una determinata categoria implica l'esistenza di categorie di rango inferiore. Cioè, osservare un tiro di dado sul lato 9 implica l'esistenza dei lati 1-8. Non deve essere così - le categorie potrebbero essere arbitrarie - ma lo suppongo nel mio esempio. Ciò significa che sono osservabili valori 0, in contrasto con altri problemi di stima delle specie.

Diciamo che abbiamo un campione multinomiale,

Y = {y_{1}, y_{2}, ..., y_{m}, y_{m + 1}, ..., y_{n}} ~ M ({p_{1}, p_{2}, ..., p_{m}, p_{m + 1}, ..., p_{n}})

$Y = \{y_1, y_2, \dots, y_m, y_{m+1}, \dots, y_{n} \} \sim \mathcal{M}(\{p_1, p_2, \dots, p_m, p_{m+1}, \dots, p_n\})$

dove è la categoria massima osservata, è il numero (sconosciuto) di categorie e tutto uguale a 0. Il parametro è finito e per questo è necessario un precedente. Qualsiasi precedente discreto e appropriato con supporto su funzionerà; prendiamo ad esempio un Poisson a zero tronchi: $m$ $n$ $\{y_{m+1},\dots,y_{n}\}$ $n$ $[1, \infty)$

n ~ P (λ), n > 0

$n \sim \mathcal{P}(\lambda), n > 0$

Un priore conveniente per le probabilità multinomiali è il Dirichlet,

P = {p_{1}, ..., p_{n}} ~ D ({α_{1}, ..., α_{n}})

$P = \{ p_1, \dots, p_n \} \sim \mathcal{D}(\{ \alpha_1, \dots, \alpha_n \})$

E per assumere in modo semplice . $\alpha_1 = \alpha_2 = \dots = \alpha_n = \tilde{\alpha}$

Per rendere il problema più trattabile, emarginiamo i pesi:

p (Y | \tilde{α}, n) = \int_{P} p (Y | P, n) p (P | \tilde{α}, n) d P

$p(Y|\tilde{\alpha}, n) = \int_P p(Y|P, n)p(P|\tilde{\alpha}, n) dP$

Che in questo caso guida la ben studiata distribuzione multinomiale di Dirichlet . L'obiettivo è quindi stimare il posteriore condizionale,

p (n | Y, \tilde{α}, λ) = \frac{p (Y | n, \tilde{α}) p (n | λ)}{p (Y | \tilde{α}, λ)}

$p(n|Y, \tilde{\alpha}, \lambda) = \frac{ p(Y|n, \tilde{\alpha}) p(n|\lambda) }{ p(Y|\tilde{\alpha}, \lambda) }$

Dove presumo esplicitamente che e siano iperparametri fissi. È facile vedere che: $\tilde{\alpha}$ $\lambda$

p (Y | \tilde{α}, λ) = Σ_{n = 1}^{\infty} p (Y | n, \tilde{α}) p (n | λ)

$p(Y|\tilde{\alpha}, \lambda) = \sum_{n=1}^\infty p(Y|n, \tilde{\alpha}) p(n|\lambda)$

Dove dove . Questa serie infinita dovrebbe convergere piuttosto rapidamente (purché la coda del precedente non sia troppo pesante), quindi è facile da approssimare. Per il Poisson troncato, ha la forma: $p(Y|n, \tilde{\alpha}) = 0$ $n < m$

p (Y | \tilde{α}, λ) = \frac{1}{(e^{λ} - 1)} Σ_{n = m}^{\infty} \frac{Γ (n \tilde{α}) Π_{io = 1}^{n} Γ (y_{io} + \tilde{α})}{Γ (n \tilde{α} + Σ_{io = 1}^{n} y_{io}) Γ (\tilde{α})^{n}} \cdot \frac{λ^{n}}{n!}

$p(Y|\tilde{\alpha}, \lambda) = \frac{1}{(e^\lambda - 1)} \sum_{n=m}^\infty \frac{\Gamma(n\tilde{\alpha})\prod_{i=1}^n \Gamma(y_i + \tilde{\alpha})}{\Gamma(n\tilde{\alpha} + \sum_{i=1}^n y_i) \Gamma(\tilde{\alpha})^n} \cdot \frac{\lambda^n}{n!}$

Portando a:

p (n | Y, \tilde{α}, λ) = \frac{Γ (n \tilde{α}) Π_{io = 1}^{n} Γ (y_{io} + \tilde{α})}{Γ (n \tilde{α} + Σ_{io = 1}^{n} y_{io}) Γ (\tilde{α})^{n}} \cdot \frac{λ^{n}}{n!} \cdot {(Σ_{j = m}^{\infty} \frac{Γ (j \tilde{α}) Π_{io = 1}^{j} Γ (y_{io} + \tilde{α})}{Γ (j \tilde{α} + Σ_{io = 1}^{j} y_{io}) Γ (\tilde{α})^{j}} \cdot \frac{λ^{j}}{j!})}^{- 1}

$p(n|Y,\tilde{\alpha}, \lambda) = \frac{\Gamma(n\tilde{\alpha})\prod_{i=1}^n \Gamma(y_i + \tilde{\alpha})}{\Gamma(n\tilde{\alpha} + \sum_{i=1}^n y_i) \Gamma(\tilde{\alpha})^n} \cdot \frac{\lambda^n}{n!} \cdot \left(\sum_{j=m}^\infty \frac{\Gamma(j\tilde{\alpha})\prod_{i=1}^j \Gamma(y_i + \tilde{\alpha})}{\Gamma(j\tilde{\alpha} + \sum_{i=1}^j y_i) \Gamma(\tilde{\alpha})^j} \cdot \frac{\lambda^j}{j!}\right)^{-1}$

$[m, \infty)$

Ecco un esempio sciatto in R:

logPosteriorN <- function(max, Y, lambda, alpha){
    m <- length(Y)
    sumy <- sum(Y)
    pp <- sapply(1:max, function(j){
        prior <- log(lambda)*j - log(exp(lambda)-1) - lgamma(j+1)
        posterior <- lgamma(alpha*j) + sum(lgamma(Y + alpha)) - j*lgamma(alpha) - lgamma(sumy + j*alpha)
        if( j > m ) { posterior <- posterior + (j-m)*lgamma(alpha) } 
        else if( j < m ) { posterior = -Inf }
        prior + posterior
        })
    evidence <- log(sum(exp(pp))) # there's no check that this converges
    pp - evidence
}

## with even representation of sides
Y <- c(10, 10, 10, 10)
post <- logPosteriorN(30, Y, 10, 1.2)
plot(1:30, exp(post), pch=19, type="b")

## with uneven representation of sides
Y <- c(1, 2, 1, 0, 0, 2, 1, 0, 1)
post <- logPosteriorN(30, Y, 10, 1.2)
plot(1:30, exp(post), pch=19, type="b")

$\tilde{\alpha}$ $n$ $\tilde{\alpha}$

Naturalmente, questo è un approccio alla stima. Troverai prontamente altri (dai sapori bayesiani e non bayesiani) con un po 'di ricerca.

Parte II (Risposta al commento)

$Y = \{y_1, \dots, y_m, y_{m+1}, \dots, y_n \}$ $\Omega = \{\omega_1, \dots, \omega_m, \omega_{m+1}, \dots, \omega_n\}$

P r (Y | Ω, n) = \frac{Γ (Σ_{io = 1}^{n} y_{io} + 1)}{Π_{io = 1}^{n} Γ (y_{io} + 1)} Π_{io = 1}^{n} ω_{io}^{y_{io}}

$\mathrm{Pr}(Y|\Omega, n) = \frac{\Gamma(\sum_{i=1}^n y_i + 1)}{\prod_{i=1}^n \Gamma(y_i + 1) } \prod_{i=1}^n \omega_i^{y_i}$

$y \in \mathbb{N}$ $y_1 \dots y_m > 0$ $y_{m+1} \dots y_n = 0$ $n$ $n$

P r (n | λ) = \frac{λ^{n}}{(\exp {λ} - 1) n!}, n \in Z^{+}

$\mathrm{Pr}(n|\lambda) = \frac{\lambda^{n}}{(\exp\{\lambda\} - 1)n!},~n \in \mathbb{Z}^+$

$\Omega$ $\tilde{\alpha}$ $n$

P r (Ω | \tilde{α}, n) = \frac{Γ (n \tilde{α})}{Γ (\tilde{α})^{n}} Π_{io = 1}^{n} ω_{io}^{\tilde{α} - 1}

$\mathrm{Pr}(\Omega|\tilde{\alpha}, n) = \frac{\Gamma(n\tilde{\alpha})}{\Gamma(\tilde{\alpha})^n} \prod_{i=1}^n \omega_i^{\tilde{\alpha}-1}$

P r (Y | \tilde{α}, n) = \int P r (Y | Ω, n) P r (Ω | \tilde{α}, n) = \frac{Γ (n \tilde{α})}{Γ (Σ_{io = 1}^{n} y_{io} + n \tilde{α}) Γ (\tilde{α})^{n}} Π_{io = 1}^{n} Γ (y_{io} + \tilde{α})

$\mathrm{Pr}(Y|\tilde{\alpha}, n) = \int \mathrm{Pr}(Y|\Omega, n) \mathrm{Pr}(\Omega|\tilde{\alpha}, n) = \frac{\Gamma(n \tilde{\alpha})} {\Gamma(\sum_{i=1}^n y_i + n \tilde{\alpha}) \Gamma(\tilde{\alpha})^n} \prod_{i=1}^n \Gamma(y_i + \tilde{\alpha})$

$n$ $i \in \{1 \dots n\}$ $j < i$ $m \leq n$ $Y$ $n-m$ $\mathcal{P}[Y]$

$n$

P r (P [Y] | \tilde{α}, n) = \frac{n!}{(n - m)!} P r (Y | \tilde{α}, n)

$\mathrm{Pr}(\mathcal{P}[Y]|\tilde{\alpha}, n) = \frac{n!}{(n-m)!} \mathrm{Pr}(Y|\tilde{\alpha}, n)$

$n$

P r (P [Y] | \tilde{α}, λ) = Σ_{j = m}^{\infty} P r (P [Y] | \tilde{α}, n) P r (n | λ)

$\mathrm{Pr}(\mathcal{P}[Y]|\tilde{\alpha}, \lambda) = \sum_{j=m}^{\infty} \mathrm{Pr}(\mathcal{P}[Y]|\tilde{\alpha}, n) \mathrm{Pr}(n|\lambda)$

P r (n | P [Y], \tilde{α}, λ) = \frac{P r (P [Y] | n, \tilde{α}) P r (n | λ)}{P r (P [Y] | \tilde{α}, λ)}

$\mathrm{Pr}(n|\mathcal{P}[Y], \tilde{\alpha}, \lambda) = \frac{\mathrm{Pr}(\mathcal{P}[Y]|n, \tilde{\alpha}) \mathrm{Pr}(n|\lambda)}{\mathrm{Pr}(\mathcal{P}[Y]|\tilde{\alpha}, \lambda)}$

Basta collegare dalle definizioni sopra. Ancora una volta, il denominatore è una serie infinita che converge rapidamente: in questo semplice modello, non è necessario che MCMC fornisca un'adeguata approssimazione.

Modificando il codice R dalla parte I:

logPosteriorN_2 <- function(max, Y, lambda, alpha){
    m <- length(Y)
    sumy <- sum(Y)
    pp <- sapply(1:max, function(j){
        prior <- log(lambda)*j - log(exp(lambda)-1) - lgamma(j+1)
        likelihood <- lchoose(j, m) + lgamma(m + 1) + lgamma(alpha*j) + sum(lgamma(Y + alpha)) - j*lgamma(alpha) - lgamma(sumy + j*alpha)
        if( j > m ) { likelihood <- likelihood + (j-m)*lgamma(alpha) } 
        else if( j < m ) { likelihood = -Inf }
        prior + likelihood
        })
    evidence <- log(sum(exp(pp))) # there's no check that this converges
    pp - evidence
}

Y_1 <- rep(10, 15)
pos_1 <- logPosteriorN_2(50, Y_1, 6, 1)
plot(1:50, exp(pos_1))

— Nate Pope
fonte

Mille grazie per la tua risposta molto completa. (Mi dispiace per la mia risposta molto lenta). Sono tornato a questo tipo di domanda e sto ancora facendo progressi nella matematica. Nel mio sistema le categorie non sono ordinali, quindi l'ipotesi che un'osservazione di una determinata categoria implichi l'esistenza di categorie di un rango inferiore non è valida.

— davipatti,

@davipatti Ha risposto nella seconda parte.

— Nate Pope,