Approccio più delicato alle statistiche bayesiane


20

Di recente ho iniziato a leggere la 2a edizione di "Introduzione alla statistica bayesiana" di Bolstad. Ho avuto una lezione di statistica introduttiva che ha riguardato principalmente test statistici e sono quasi attraverso una lezione di analisi di regressione. Quali altri libri posso usare per integrare la mia comprensione di questo?

Ho superato bene le prime 100-125 pagine. Successivamente il libro inizia a parlare di test di ipotesi che è quello che sono molto entusiasta di coprire, ma ci sono un paio di cose che mi lanciano:

  • L'uso delle funzioni di densità di probabilità nei calcoli. In altre parole, come valutare tali equazioni.
  • Tutta questa frase: "Supponiamo di usare un beta (1,1) prima di pi. Quindi, dato y = 8, la densità posteriore è beta (9,3). La probabilità posteriore dell'ipotesi nulla è ..." Credo beta (1,1) si riferisce a un PDF in cui la media è 1 e lo stdev è 1? Non capisco come cambierebbe in beta (9,3) come funzione di densità posteriore.

Capisco il concetto di priori vs posteriori e capisco come applicarli usando una tabella manualmente. Capisco (penso!) Che pi rappresenti la presunta proporzione o probabilità della popolazione.

Non capisco come collegarlo insieme ai dati che avrei incontrato su una base quotidiana e ottenere risultati.


Il parametro appare dal contesto come probabilità di popolazione di un modello binomiale. In questo caso, una distribuzione beta è il coniugato precedente per una probabilità binomiale con noto e sconosciuto . Tuttavia, i parametri della distribuzione beta non sono la media e la deviazione standard, come nel caso della distribuzione normale. Guarda la pagina di Wikipedia per vedere la formula della media e della varianza di una variabile casuale beta in termini di parametri della distribuzione beta. πnπ
Caburke,

Grazie! Coniugare prima è un altro termine che non mi è familiare. Dove posso saperne di più al riguardo a livello introduttivo?
Justin Bozonier,

8
Potresti essere interessato a un testo più pratico, hai visto Metodi bayesiani per gli hacker? (Divulgazione - Sono un autore collaboratore) Prova a cercarlo (è open source e gratuito).
Cam.Davidson.Pilon

@JustinBozonier Questo link stats.stackexchange.com/questions/66018/… fornisce alcune spiegazioni ai diversi termini che le persone usano per descrivere i priori, inclusi i coniugati.
Sycorax dice di reintegrare Monica il

1
@ Cam.Davidson.Pilon Grazie per quello! L'aggiornamento delle credenze nei grafici di questa pagina mi sta aiutando a ottenere più di ciò che gli altri rispondono
Justin Bozonier

Risposte:


26

L'uso delle funzioni di densità di probabilità nei calcoli. In altre parole, come valutare tali equazioni.

Penso che stai ancora pensando a questo da una prospettiva frequentista: se stai cercando una stima puntuale, il posteriore non te la darà. Inserisci i PDF, ottieni i PDF. Puoi ricavare stime puntuali calcolando le statistiche dalla tua distribuzione posteriore, ma ci arriveremo un po '.

Capisco il concetto di priori vs posteriori e capisco come applicarli usando una tabella manualmente. Capisco (penso!) Che pi rappresenti la presunta proporzione o probabilità della popolazione.

π(X) è la stessa cosa di : sono entrambi PDF. è solo convenzionalmente usato per indicare che il particolare PDF è una densità precedente.p(X)π

Ho il sospetto che non ottieni preti e posteri così come pensi di fare, quindi torniamo al fondamento fondamentale delle statistiche bayesiane: Probabilità soggettiva .

Un esperimento di pensiero sulla probabilità soggettiva

Diciamo che ti presento una moneta e ti chiedo se pensi che questa moneta sia o meno una moneta giusta. Hai sentito molte persone parlare di monete ingiuste nella classe di probabilità, ma in realtà non ne hai mai visto uno nella vita reale, quindi rispondi, "Sì, certo, penso che sia una moneta giusta." Ma il fatto che ti stia anche ponendo questa domanda ti scoraggia un po ', quindi anche se la tua stima è giusta, non ti sorprenderebbe davvero se non lo fosse. Molto meno sorpreso che se avessi trovato questa moneta nel tuo cambio di tasca (perché presumi che sia tutta vera valuta, e non ti fidi davvero di me in questo momento perché sto agendo in modo sospetto).

Ora eseguiamo alcuni esperimenti. Dopo 100 lanci, la moneta restituisce 53 teste. Sei molto più sicuro che sia una moneta giusta, ma sei ancora aperto alla possibilità che non lo sia. La differenza è che ora saresti piuttosto sorpreso se questa moneta risultasse avere una sorta di pregiudizio.

Come possiamo rappresentare qui le tue convinzioni precedenti e posteriori, in particolare, riguardo alla probabilità che la moneta mostrerà teste (che indicheremo )? In un ambiente frequentista, la tua precedente convinzione - la tua ipotesi nulla - è che θ = 0,5 . Dopo aver eseguito l'esperimento, non sei in grado di rifiutare il valore nullo, quindi continui con l'assunto che sì, la moneta è probabilmente giusta. Ma come possiamo incapsulare il cambiamento nella tua sicurezza che la moneta sia giusta? Dopo l'esperimento sei nella posizione in cui potresti scommettere che la moneta è giusta, ma prima dell'esperimento saresti stato trepidante.θθ=0.5

Nell'impostazione bayesiana, incapsuli la tua fiducia nelle proposizioni non trattando le probabilità come valori scalari ma come variabili casuali, cioè funzioni. Invece di dire diciamo θ N ( 0,5 , σ 2 ) , e quindi incapsuliamo la nostra fiducia nella varianza del PDF. Se impostiamo una varianza elevata, stiamo dicendo: "Penso che la probabilità sia 0,5, ma non sarei sorpreso se la probabilità che effettivamente osservo nel mondo è molto lontana da questo valore. Penso che θ = 0,5θ=0.5θ~N(0.5,σ2)θ=0.5, ma francamente non ne sono così sicuro. "Impostando una varianza bassa, stiamo dicendo:" Non solo credo che la probabilità sia 0,5, ma sarei molto sorpreso se la sperimentazione fornisca un valore non molto vicino a . "Quindi, in questo esempio quando inizi l'esperimento hai un precedente con elevata varianza. Dopo aver ricevuto i dati che confermano il tuo precedente, la media del precedente è rimasta la stessa, ma la varianza è diventata molto più ridotta. La nostra fiducia che θ = 0,5 è molto più alto dopo aver eseguito l'esperimento rispetto a prima.θ=0.5θ=0.5

Quindi, come eseguiamo i calcoli?

Iniziamo con i PDF e finiamo con i PDF. Quando è necessario riportare una stima puntuale, è possibile calcolare statistiche come la media, la mediana o la modalità della distribuzione posteriore (a seconda della funzione di perdita, che non tratterò ora. Concentriamoci solo sulla media). Se hai una soluzione in formato chiuso per il tuo PDF, sarà probabilmente banale determinare questi valori. Se il posteriore è complicato, puoi usare procedure come MCMC per campionare dal tuo posteriore e ricavare statistiche dal campione che hai disegnato.

Nell'esempio in cui hai un beta precedente e una probabilità binomiale, il calcolo del posteriore si riduce a un calcolo molto pulito. Dato:

  • θ~Betun'(α,β)
  • X|θ~Bionomioun'l(θ)

Quindi il posteriore si riduce a:

  • θ|X~Betun'(α+Σio=1nXio,β+n-Σio=1nXio)

Questo accadrà ogni volta che hai un beta precedente e una probabilità binomiale e il motivo per cui dovrebbe essere evidente nei calcoli forniti da DJE . Quando un particolare modello di probabilità precedente dà sempre un posteriore che ha lo stesso tipo di distribuzione del precedente, la relazione tra i tipi di distribuzioni utilizzate per il precedente e la probabilità è chiamata Coniugato . Esistono molte coppie di distribuzioni che hanno relazioni coniugate e la coniugazione è molto frequentemente sfruttata dai bayesiani per semplificare i calcoli. Data una particolare probabilità, puoi rendere la tua vita molto più semplice selezionando un coniugato precedente (se ne esiste uno e puoi giustificare la tua scelta del precedente).

Credo che beta (1,1) si riferisca a un PDF in cui la media è 1 e lo stdev è 1?

Nella parametrizzazione comune della distribuzione normale, i due parametri indicano la deviazione media e standard della distribuzione. Ma è così che parametrizziamo la distribuzione normale. Altre distribuzioni di probabilità sono parametrizzate in modo molto diverso.

Betun'(α,β)αβ

X~Betun'(α,β)E[X]=αα+βvar[X]=αβ(α+β)2(α+β+1)

Come puoi vedere chiaramente, la media e la varianza non fanno parte della parametrizzazione di questa distribuzione, ma hanno soluzioni in forma chiusa che sono semplici funzioni dei parametri di input.

Betun'(1,1)Unioform(0,1)


4
La cosa chiave che mi ha dato la tua risposta è stata la consapevolezza che cercare un singolo valore era il punto in cui mi stavo appendendo. Una volta ho iniziato a pensare in termini di distribuzioni il testo di Kruschke e tutto il resto ha iniziato ad avere molto più senso. Grazie!
Justin Bozonier,

8

p(θ)=Γ(α)Γ(β)Γ(α+β)θα-1(1-θ)β-1(α,β)=(1,1)

Il beta precedente con una probabilità binomiale (numero fisso di prove con esiti binari e probabilità fisse di successo / fallimento) ha la proprietà della coniugazione, che consente al posteriore (prodotto del precedente e della probabilità) di essere scritto in forma chiusa:

p(θ|y)=p(y|θ)p(θ)p(y)  αΓ(α)Γ(β)Γ(α+β)θα-1(1-θ)β-1*(ny)θy(1-θ)n-y  αθα-1(1-θ)β-1*θy(1-θ)n-y αθα+y-1(1-θ)β+n-y-1 =Γ(α+y-1)Γ(β+n-y-1)Γ(α+β+n-1)θα+y-1(1-θ)β+n-y-1

θ

Questa espressione a forma chiusa è conveniente, ma non assolutamente necessaria. La moltiplicazione delle densità di probabilità può essere fatta allo stesso modo della moltiplicazione di altre espressioni matematiche; le difficoltà arrivano poiché molti prodotti di densità non sono facilmente riscrivibili come la probabilità beta / binomiale precedente. Fortunatamente, è qui che i computer raccolgono il gioco.


7

Se stai cercando un approccio più delicato, posso consigliare vivamente il libro di Kruschke che usa R per spiegare i concetti chiave. È un approccio molto pratico e pratico per l'apprendimento delle statistiche bayesiane e sul suo sito Web è possibile trovare tutti i codici utilizzati.

Qualcuno mi ha anche consigliato il testo di Cam.Davidson.Pilon, non l'ho ancora visto, ma può essere trovato qui .


1
Grazie! In realtà possiedo già il libro Kruschke e sono appena tornato a esaminarlo e ho capito che è esattamente quello di cui ho bisogno in questo momento. Grazie per il puntatore!
Justin Bozonier,

@JustinBozonier Consiglio vivamente anche Introduzione alla teoria della statistica (stato d'animo) . Fornisce un livello relativamente alto di rigore, ma presuppone solo di conoscere calcoli molto basilari.
Steve P.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.