Semplici esempi del mondo reale per insegnare le statistiche bayesiane?


10

Vorrei trovare alcuni "esempi del mondo reale" per insegnare le statistiche bayesiane. Le statistiche bayesiane consentono di incorporare formalmente le conoscenze precedenti in un'analisi. Vorrei fornire agli studenti alcuni semplici esempi del mondo reale di ricercatori che incorporano conoscenze precedenti nelle loro analisi in modo che gli studenti possano comprendere meglio la motivazione per cui si potrebbe voler utilizzare le statistiche bayesiane in primo luogo.

Sei a conoscenza di semplici esempi del mondo reale come la stima della media della popolazione, della proporzione, della regressione, ecc. In cui i ricercatori incorporano formalmente informazioni preliminari? Mi rendo conto che i bayesiani possono usare anche priori "non informativi", ma sono particolarmente interessato a esempi reali in cui vengono utilizzati priori informativi (cioè informazioni reali precedenti).


Penso che il QI sia un buon esempio.
Hejseb,

Non è una risposta rigorosa, ma quando lanci una moneta tre volte e la testa esce due volte, nessuno studente ci crederebbe, quella testa aveva il doppio delle probabilità di croce. Ciò è abbastanza convincente, anche se certamente non vera ricerca.
Bernhard

1
Puoi dare un'occhiata a questa risposta, scritta da te davvero: stats.stackexchange.com/a/134385/61496
Yair Daon

Stai forse combinando la regola di Bayes, che può essere applicata nella probabilità / stima del frequentatore, e le statistiche bayesiane in cui la "probabilità" è un riassunto della convinzione?
AdamO,

Risposte:


6

La teoria della ricerca bayesiana è un'interessante applicazione nel mondo reale delle statistiche bayesiane che è stata applicata molte volte per cercare navi perse in mare. Per iniziare, una mappa è divisa in quadrati. A ciascun quadrato viene assegnata una probabilità precedente di contenere la nave perduta, in base all'ultima posizione nota, rotta, tempo mancante, correnti, ecc. Inoltre, a ciascun quadrato viene assegnata una probabilità condizionale di trovare la nave se si trova effettivamente in quel quadrato, in base a cose come la profondità dell'acqua. Queste distribuzioni sono combinate per dare la priorità ai quadrati delle mappe che hanno la più alta probabilità di produrre un risultato positivo - non è necessariamente il luogo più probabile per la nave, ma il luogo più probabile per trovare effettivamente la nave.


1
Bene, queste sono le applicazioni descritte nel divertente libro The Theory That Would Don't Die: come la regola di Bayes ha infranto il codice dell'enigma, cacciato sottomarini russi ed emerso trionfante da due secoli di polemiche . Inoltre, Turing ha usato questo tipo di ragionamento per rompere l'enigma.
jpmuc,

Probabilistico ma è bayesiano?
Andrew,

5

Penso che stimare la produzione o la dimensione della popolazione dai numeri di serie sia interessante se l'esempio esplicativo tradizionale. Qui stai provando il massimo di una distribuzione uniforme discreta. A seconda della scelta di prima, la massima probabilità e le stime bayesiane differiranno in modo abbastanza trasparente.

Forse l'esempio più famoso è la stima del tasso di produzione dei carri armati tedeschi durante la seconda guerra mondiale dalle bande di numeri di serie dei carri armati e dai codici del produttore fatti nell'impostazione frequentatrice da (Ruggles e Brodie, 1947). Un'analisi alternativa dal punto di vista bayesiano con i priori informativi è stata fatta da (Downey, 2013) e con i priori non informativi impropri di (Höhle e Held, 2004). Il lavoro di (Höhle and Held, 2004) contiene anche molti altri riferimenti a precedenti trattamenti in letteratura e in questo sito si discute maggiormente di questo problema.

fonti:

Capitolo 3, Downey, Allen. Pensa a Bayes: statistiche bayesiane in Python. "O'Reilly Media, Inc.", 2013.

Wikipedia

Ruggles, R .; Brodie, H. (1947). "Un approccio empirico all'intelligenza economica nella seconda guerra mondiale". Giornale dell'American Statistical Association. 42 (237): 72.

Höhle, Michael e Leonhard Held. Stima bayesiana delle dimensioni di una popolazione. N. 499. Documento di discussione // Sonderforschungsbereich 386 der Ludwig-Maximilians-Universität München, 2006.


3

C'è una bella storia in Cressie & Wickle Statistics per Spatio -Temporal Data , Wiley, sulla ricerca (bayesiana) dell'USS Scorpion, un sottomarino che è stato perso nel 1968. Raccontiamo questa storia ai nostri studenti e facciamo loro esibire un ( ricerca semplificata) usando un simulatore .

Esempi simili potrebbero essere costruiti attorno alla storia del volo perduto MH370; potresti voler dare un'occhiata a Davey et al., Metodi bayesiani nella ricerca di MH370 , Springer-Verlag.


1

Ecco un esempio di stima di una media, , da dati continui normali. Prima di approfondire direttamente un esempio, però, vorrei rivedere alcuni dei calcoli matematici per i modelli di dati bayesiani normali-normali.θ

y1,...,yny=(y1,...,yn)T

y1,...,yn|θ~N(θ,σ2)

O come più tipicamente scritto da bayesiano,

y1,...,yn|θ~N(θ,τ)

τ=1/σ2τ

yio

f(yio|θ,τ)=(τ2π)×eXp(-τ(yio-θ)2/2)

θ^=y¯

θ

θ~N(un',1/B)

La distribuzione posteriore che otteniamo da questo modello di dati Normale-Normale (dopo molta algebra) è un'altra distribuzione Normale.

θ|y~N(BB+nτun'+nτB+nτy¯,1B+nτ)

B+nτun'y¯BB+nτun'+nτB+nτy¯

θ|yθθ

Detto questo, ora puoi usare qualsiasi esempio di libro di testo con dati normali per illustrare questo. Userò il set di dati airqualityall'interno di R. Considera il problema della stima della velocità media del vento (MPH).

> ## New York Air Quality Measurements
> 
> help("airquality")
> 
> ## Estimating average wind speeds
> 
> wind = airquality$Wind
> hist(wind, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
>

inserisci qui la descrizione dell'immagine

> n = length(wind)
> ybar = mean(wind)
> ybar
[1] 9.957516 ## "frequentist" estimate
> tau = 1/sd(wind)
> 
> 
> ## but based on some research, you felt avgerage wind speeds were closer to 12 mph
> ## but probably no greater than 15,
> ## then a potential prior would be N(12, 2)
> 
> a = 12
> b = 2
> 
> ## Your posterior would be N((1/))
> 
> postmean = 1/(1 + n*tau) * a + n*tau/(1 + n*tau) * ybar
> postsd = 1/(1 + n*tau)
> 
> set.seed(123)
> posterior_sample = rnorm(n = 10000, mean = postmean, sd = postsd)
> hist(posterior_sample, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
> abline(v = median(posterior_sample))
> abline(v = ybar, lty = 3)
> 

inserisci qui la descrizione dell'immagine

> median(posterior_sample)
[1] 10.00324
> quantile(x = posterior_sample, probs = c(0.025, 0.975)) ## confidence intervals
2.5%     97.5% 
9.958984 10.047404 

In questa analisi, il ricercatore (tu) può dire che dati dati + informazioni precedenti, la tua stima del vento medio, usando il 50 ° percentile, le velocità dovrebbero essere 10,00324, maggiore del semplice uso della media dai dati. È inoltre possibile ottenere una distribuzione completa, dalla quale è possibile estrarre un intervallo credibile del 95% utilizzando i quantili 2.5 e 97.5.

Di seguito includo due riferimenti, consiglio vivamente di leggere il cortometraggio di Casella. Si rivolge specificamente ai metodi empirici di Bayes, ma spiega la metodologia bayesiana generale per i modelli normali.

Riferimenti:

  1. Casella, G. (1985). Un'introduzione all'analisi empirica dei dati di Bayes. The American Statistician, 39 (2), 83-87.

  2. Gelman, A. (2004). Analisi dei dati bayesiani (2a edizione, testi in scienze statistiche). Boca Raton, Fla .: Chapman & Hall / CRC.


1

Un'area di ricerca in cui ritengo che i metodi bayesiani siano assolutamente necessari è quella del design ottimale.

XβX

XβββX

  • n=0β^

  • β^

  • β=1β^=5Xβ=5X

  • Questo non tiene conto dell'incertezza di β

La (frequentemente più vecchia) letteratura frequentista affronta molte di queste problematiche in maniera ad-hoc e offre soluzioni subottimali: "scegli le regioni di XX

Xβ

βX

X .


1

Ultimamente stavo pensando a questa domanda, e penso di avere un esempio in cui bayesiano ha un senso, con l'uso di una probabilità precedente: il rapporto di probabilità di un test clinico.

L'esempio potrebbe essere questo: la validità del dipslide urinario nelle condizioni di pratica quotidiana (Family Practice 2003; 20: 410-2). L'idea è di vedere quale risultato positivo del dipslide delle urine implichi nella diagnosi di infezione delle urine. Il rapporto di probabilità del risultato positivo è:

LR(+)=teSt+|H+teSt+|H-=SenSioBiolioty1-Speciofiocioty
H+H-

OR(+|teSt+)=LR(+)×OR(+)
OROR(+|teSt+)OR(+)

LR(+)=12.2LR(-)=0,29

p+=2/3p+|teSt+=0.96p+|teSt-=0.37 se il test è negativo.

Qui il test è buono per rilevare l'infezione, ma non così buono per scartare l'infezione.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.