Questo è il mio primo tentativo per qualcuno proveniente dal campo frequentista di fare analisi dei dati bayesiani. Ho letto una serie di tutorial e alcuni capitoli di Bayesian Data Analysis di A. Gelman.

Come primo esempio di analisi dei dati più o meno indipendente che ho scelto sono i tempi di attesa dei treni. Mi sono chiesto: qual è la distribuzione dei tempi di attesa?

Il set di dati è stato fornito su un blog ed è stato analizzato in modo leggermente diverso e al di fuori di PyMC.

Il mio obiettivo è stimare i tempi di attesa previsti per il treno dati questi 19 dati.

Il modello che ho costruito è il seguente:

$\mu \sim N(\hat\mu,\hat\sigma)$

$\sigma \sim |N(0,\hat\sigma)|$

$\lambda \sim \Gamma(\mu,\sigma)$

$\rho \sim Poisson(\lambda)$

dove è dati significano e è la deviazione standard dei dati moltiplicato per 1000. $\hat\mu$ $\hat\sigma$

$\rho$ $\mu$ $\sigma$ $\sigma$

Ho un sacco di domande

Questo modello è ragionevole per l'attività (diversi modi possibili per modellare?)?
Ho fatto errori per principianti?
Il modello può essere semplificato (tendo a complicare le cose semplici)?
$\rho$
Come posso prelevare alcuni campioni dalla distribuzione Poisson installata per vedere i campioni?

I posteriori dopo 5000 passi di Metropolis si presentano così:

$\mu$ $\sigma$ $\rho$

Sarei molto grato per eventuali osservazioni e commenti che mi permettessero di cogliere una programmazione più probabilistica. Potrebbero esserci esempi più classici con cui vale la pena sperimentare?

Ecco il codice che ho scritto in Python usando PyMC3. Il file di dati può essere trovato qui .

import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import pymc3

from scipy import optimize

from pylab import figure, axes, title, show

from pymc3.distributions import Normal, HalfNormal, Poisson, Gamma, Exponential
from pymc3 import find_MAP
from pymc3 import Metropolis, NUTS, sample
from pymc3 import summary, traceplot

df = pd.read_csv( 'train_wait.csv' )

diff_mean = np.mean( df["diff"] )
diff_std = 1000*np.std( df["diff"] )

model = pymc3.Model()

with model:
    # unknown model parameters
    mu = Normal('mu',mu=diff_mean,sd=diff_std)
    sd = HalfNormal('sd',sd=diff_std)

    # unknown model parameter of interest
    rate = Gamma( 'rate', mu=mu, sd=sd )

    # observed
    diff = Poisson( 'diff', rate, observed=df["diff"] )

with model:
    step1 = NUTS([mu,sd])
    step2 = Metropolis([rate])
    trace = sample( 5000, step=[step1,step2] )

plt.figure()
traceplot(trace)
plt.savefig("rate.pdf")
plt.show()
plt.close()

bayesian pymc

— Vladislavs Dovgalecs
fonte

Una bella domanda, ma ti consiglio di modificare il titolo: le tue domande sono piuttosto agnostiche per il software e sembrano più sulla valutazione del modello. Potresti anche voler dividerlo in domande separate e correlate.

— Sean Easter,

@SeanEaster Grazie! In realtà è legato al software, anche se sono d'accordo sul titolo. Sono pronto ad aggiungere il codice sorgente su richiesta in quanto racconta una storia più completa ma potrebbe anche rendere la domanda più voluminosa e potenzialmente più confusa. Sentiti libero di modificare il titolo poiché non mi viene in mente nulla di più generico.

— Vladislavs Dovgalecs

Sono d'accordo. Penso che queste siano davvero due domande. Ho provato a rispondere alle domande di modellazione.

— Jaradniemi,

Prima ti dirò cosa farei e poi risponderò alle domande specifiche che avevi.

Cosa farei (almeno inizialmente)

Ecco cosa raccolgo dal tuo post, hai dei tempi di attesa per 19 osservazioni e sei interessato a dedurre il tempo di attesa previsto.

$W_i$ $i=1,\ldots,19$ $i$ $W_i\in\mathbb{R}^+$

Esistono diverse ipotesi di modello che potrebbero essere utilizzate e con 19 osservazioni può essere difficile determinare quale modello sia più ragionevole. Alcuni esempi sono log-normali, gamma, esponenziali, Weibull.

$Y_i=\log(W_i)$

Y_{i} \overset{i n d}{\sim} N (μ, σ^{2}) .

$Y_i \stackrel{ind}{\sim} N(\mu,\sigma^2).$

μ | σ^{2} \sim N (m, σ^{2} C) σ^{2} \sim I G (a, b)

$\mu|\sigma^2 \sim N(m,\sigma^2 C) \quad \sigma^2 \sim IG(a,b)$

I G

$IG$

p (μ, σ^{2}) \propto 1 / σ^{2}

$p(\mu,\sigma^2)\propto 1/\sigma^2$

$E[W_i] = e^{\mu+\sigma^/2}$ $\mu$ $\sigma^2$ $e^{\mu+\sigma^/2}$

Rispondere alle tue domande

Questo modello è ragionevole per l'attività (diversi modi possibili per modellare?)?

$\lambda$ $\lambda$

Ho fatto errori per principianti?

Vedi il commento precedente.

$\lambda$

Il tuo precedente non dovrebbe dipendere dai dati.

Il modello può essere semplificato (tendo a complicare le cose semplici)?

Sì e dovrebbe. Vedi il mio approccio alla modellazione.

$\rho$

$\rho$ $\lambda$

Come posso prelevare alcuni campioni dalla distribuzione Poisson installata per vedere i campioni?

Credo che tu voglia una distribuzione predittiva posteriore. Per ogni iterazione nel tuo MCMC, inserisci i valori dei parametri per quell'iterazione e prendi un campione.

— jaradniemi
fonte

Grazie mille! Ho letto la tua risposta piuttosto rapidamente. Avrò bisogno di un po 'di tempo per digerirlo, trovare i riferimenti per alcune distribuzioni e concetti e provare a implementarlo in PyMC. A proposito, ho appena aggiunto il codice Python per il mio esperimento.

— Vladislavs Dovgalecs,

Modellazione bayesiana dei tempi di attesa dei treni: la definizione del modello

Cosa farei (almeno inizialmente)

Rispondere alle tue domande