Aiutami a capire le distribuzioni bayesiane precedenti e posteriori


125

In un gruppo di studenti, ci sono 2 su 18 che sono mancini. Trova la distribuzione posteriore degli studenti mancini nella popolazione assumendo un precedente non informativo. Riassumi i risultati. Secondo la letteratura, il 5-20% delle persone è mancino. Prendi in considerazione queste informazioni nel tuo precedente e calcola il nuovo posteriore.

So che la distribuzione beta dovrebbe essere utilizzata qui. Innanzitutto, con valori e come 1? L'equazione che ho trovato nel materiale per il posteriore èαβ

π(r|Y)r(Y+1)×(1r)(NY+1)

Y=2N = 18 ,N=18

Perché quella nell'equazione? ( che indica la percentuale di mancini). Non è noto, quindi come può essere in questa equazione? A me sembra ridicolo calcolare dato e usare quella nell'equazione dando . Bene, con il campione il risultato è stato . La dovrei dedurne da quello?rrrYrrr=2/180,0019f

L'equazione che dà un valore atteso di dato che e conosciuti ha funzionato meglio e mi ha dato che suona bene. L'equazione è con valore assegnato a e . Quali valori dovrei dare e per tenere conto delle informazioni precedenti?RYN0,15E(r|X,N,α,β)=(α+X)/(α+β+N)1αβαβ

Alcuni consigli sarebbero molto apprezzati. Una lezione generale sulle distribuzioni precedenti e posteriori non farebbe male (ho una vaga comprensione di cosa sono ma solo vaga). Inoltre, tieni presente che non sono uno statistico molto avanzato (in realtà sono uno scienziato politico del mio commercio principale), quindi la matematica avanzata probabilmente mi volerà sopra la testa.


4
Hai dato un'occhiata a questa domanda e risposta ?
David Robinson,

7
La frase " Trova la distribuzione posteriore degli studenti mancini " non ha senso. Le variabili casuali hanno distribuzioni e "studenti mancini" non è un camper suppongo che tu intenda " Trova la distribuzione posteriore della percentuale di studenti mancini ". È importante non sorvolare tali dettagli, ma essere chiari su ciò di cui stai effettivamente parlando.
Glen_b,

2
In realtà, leggendo la tua domanda mi sembra che il tuo problema non sia tanto le statistiche bayesiane quanto la semplice comprensione delle distribuzioni di probabilità; è sempre il caso che l'argomento di una funzione di distribuzione (o una funzione di probabilità che hai lì) sia una funzione di uno sconosciuto (la variabile casuale). È questo il punto.
Glen_b,

I commenti non sono per una discussione estesa; questa conversazione è stata spostata in chat .
gung

Risposte:


234

Vorrei prima spiegare cos'è un precedente coniugato . Spiegherò quindi le analisi bayesiane usando il tuo esempio specifico. Le statistiche bayesiane prevedono i seguenti passaggi:

  1. Definisci la distribuzione precedente che incorpora le tue convinzioni soggettive su un parametro (nel tuo esempio il parametro di interesse è la proporzione di mancini). Il precedente può essere "non informativo" o "informativo" (ma non esiste un precedente che non abbia informazioni, vedere la discussione qui ).
  2. Raccogliere dati.
  3. Aggiorna la tua distribuzione precedente con i dati usando il teorema di Bayes per ottenere una distribuzione posteriore. La distribuzione posteriore è una distribuzione di probabilità che rappresenta le tue convinzioni aggiornate sul parametro dopo aver visto i dati.
  4. Analizza la distribuzione posteriore e riassumila (media, mediana, sd, quantili, ...).

La base di tutte le statistiche bayesiane è il teorema di Bayes, che è

posteriorprior×likelihood

Nel tuo caso, la probabilità è binomiale. Se la distribuzione anteriore e posteriore appartengono alla stessa famiglia, la distribuzione anteriore e posteriore sono chiamate distribuzioni coniugate . La distribuzione beta è un coniugato precedente perché anche quella posteriore è una distribuzione beta. Diciamo che la distribuzione beta è la famiglia coniugata per la probabilità binomiale. Le analisi del coniugato sono convenienti ma si verificano raramente nei problemi del mondo reale. Nella maggior parte dei casi, la distribuzione posteriore deve essere trovata numericamente tramite MCMC (usando Stan, WinBUGS, OpenBUGS, JAGS, PyMC o qualche altro programma).

Se la distribuzione di probabilità precedente non si integra in 1, viene definita una priorità impropria , se si integra in 1 viene definita una priorità corretta . Nella maggior parte dei casi, un precedente improprio non costituisce un grosso problema per le analisi bayesiane. La distribuzione posteriore deve essere corretta, cioè la parte posteriore deve integrarsi con 1.

Queste regole empiriche derivano direttamente dalla natura della procedura di analisi bayesiana:

  • Se il precedente non è informativo, il posteriore è molto determinato dai dati (il posteriore è guidato dai dati)
  • Se il priore è informativo, il posteriore è una miscela del priore e dei dati
  • Quanto più informativo è il precedente, tanto più dati sono necessari per "cambiare" le tue convinzioni, per così dire perché il posteriore è molto guidato dalle informazioni precedenti
  • Se hai molti dati, i dati domineranno la distribuzione posteriore (sopraffanno il precedente)

Un'eccellente panoramica di alcuni possibili priori "informativi" e "non informativi" per la distribuzione beta è disponibile in questo post .

Supponiamo che la tua beta precedente sia dove è la percentuale di mancini. Per specificare i parametri precedenti e , è utile conoscere la media e la varianza della distribuzione beta (ad esempio, se si desidera che il proprio precedente abbia una determinata media e varianza). La media è . Pertanto, ogni volta che , la media è . La varianza della distribuzione beta è . Ora, la cosa conveniente è che puoi pensare a eBeta(πLH|α,β)πLHαβπ¯LH=α/(α+β)α=β0.5αβ(α+β)2(α+β+1)αβcome precedentemente osservato (pseudo-) dati, vale a dire mancini e mancini di un campione (pseudo-) di dimensioni . La distribuzione è l'uniforme (tutti i valori di sono ugualmente probabili) ed è l'equivalente di aver osservato due persone fuori di cui uno per mancini e uno per mancini.αβneq=α+βBeta(πLH|α=1,β=1)πLH

La distribuzione beta posteriore è semplicemente dove è la dimensione del campione e è il numero di mancini nel campione. La media posteriore di è quindi . Quindi, per trovare i parametri della distribuzione beta posteriore, aggiungiamo semplicemente mancini a e mancini a . La varianza posteriore èBeta(z+α,Nz+β)NzπLH(z+α)/(N+α+β)zαNzβ(z+α)(Nz+β)(N+α+β)2(N+α+β+1). Si noti che un precedente altamente informativo porta anche a una minore varianza della distribuzione posteriore (i grafici sotto illustrano bene il punto).

Nel tuo caso, e e il tuo precedente è l'uniforme che non è informativa, quindi . La tua distribuzione posteriore è quindi . La media posteriore è . Ecco un grafico che mostra il precedente, la probabilità dei dati e il posteriorez=2N=18α=β=1Beta(3,17)π¯LH=3/(3+17)=0.15

Il priore, la probabilità dei dati e la distribuzione posteriore con un priore uniforme

Vedete che poiché la vostra distribuzione precedente non è informativa, la vostra distribuzione posteriore è interamente guidata dai dati. Inoltre viene tracciato l'intervallo di densità più elevata (HDI) per la distribuzione posteriore. Immagina di mettere la tua distribuzione posteriore in un bacino 2D e iniziare a riempire l'acqua fino a quando il 95% della distribuzione è sopra la linea di galleggiamento. I punti in cui la linea di galleggiamento si interseca con la distribuzione posteriore costituiscono il 95% di HDI. Ogni punto all'interno dell'HDI ha una probabilità più alta rispetto a qualsiasi punto esterno ad esso. Inoltre, l'HDI include sempre il picco della distribuzione posteriore (ovvero la modalità). L'HDI è diverso da un intervallo credibile del 95% a coda uguale dove sono esclusi il 2,5% da ciascuna coda del posteriore (vedere qui ).

Per il tuo secondo incarico, ti viene chiesto di incorporare le informazioni secondo cui il 5-20% della popolazione è mancino. Esistono diversi modi per farlo. Il modo più semplice è dire che la precedente distribuzione beta dovrebbe avere una media di che è la media di e . Ma come scegliere e della precedente distribuzione beta? Innanzitutto, si desidera che la media della distribuzione precedente sia su uno pseudo-campione di dimensioni del campione equivalenti . Più in generale, se vuoi che il tuo precedente abbia una media con una dimensione pseudo-campione , il corrispondente0.1250.050.2αβ0.125neqmneqαe valori sono: e . Ora non ti resta che scegliere la dimensione pseudo-campione che determina quanto sei sicuro delle tue informazioni precedenti. Supponiamo che tu sia molto sicuro delle tue informazioni precedenti e imposta . I parametri della distribuzione precedente sono quindi e . La distribuzione posteriore è con una media di circa che è praticamente uguale alla media precedente diβα=mneqβ=(1m)neqneqneq=1000α=0.1251000=125β=(10.125)1000=875Beta(127,891)0.1250.125. Le informazioni precedenti stanno dominando il posteriore (vedere il seguente grafico):

Il priore, la probabilità dei dati e la distribuzione posteriore con un forte precedente informativo

Se non sei sicuro delle informazioni precedenti, puoi impostare del tuo pseudo-campione su, diciamo, , che produce e per la tua precedente distribuzione beta. La distribuzione posteriore è con una media di circa . La media posteriore è ora vicina alla media dei tuoi dati ( ) perché i dati sopraffanno il precedente. Ecco il grafico che mostra la situazione:neq10α=1.25β=8.75Beta(3.25,24.75)0.1160.111

Il precedente, la probabilità dei dati e la distribuzione posteriore con beta precedente corrispondente a una dimensione pseudo-campione di 3

Un metodo più avanzato di incorporare le informazioni precedenti sarebbe quello di dire che il quantile della tua precedente distribuzione beta dovrebbe essere circa e il quantile dovrebbe essere circa . Ciò equivale a dire che sei sicuro al 95% che la percentuale di mancini nella popolazione sia compresa tra il 5% e il 20%. La funzione nel pacchetto R calcola i corrispondenti valori e di una distribuzione beta corrispondente a tali quantili. Il codice è0.0250.050.9750.2beta.selectLearnBayesαβ

library(LearnBayes)

quantile1=list(p=.025, x=0.05)     # the 2.5% quantile should be 0.05
quantile2=list(p=.975, x=0.2)      # the 97.5% quantile should be 0.2
beta.select(quantile1, quantile2)

[1]  7.61 59.13

Sembra che una distribuzione beta con i parametri e abbia le proprietà desiderate. La media precedente è che è vicino alla media dei dati ( ). Ancora una volta, questa distribuzione precedente incorpora le informazioni di uno pseudo-campione di una dimensione del campione equivalente di circa . La distribuzione posteriore è con una media di che è paragonabile alla media dell'analisi precedente usando un precedente altamente informativo . Ecco il grafico corrispondente:α=7.61β=59.137.61/(7.61+59.13)0.1140.111neq7.61+59.1366.74Beta(9.61,75.13)0.113Beta(125,875)

Il precedente, la probabilità dei dati e la distribuzione posteriore con precedente che ha 0,05 e 0,975 quantili di 0,05 e 0,2

Vedi anche questo riferimento per una breve ma imho buona panoramica del ragionamento bayesiano e una semplice analisi. Un'introduzione più lunga per le analisi del coniugato, in particolare per i dati binomiali, è disponibile qui . Un'introduzione generale al pensiero bayesiano può essere trovata qui . Altre diapositive sugli aspetti delle statistiche della Baysian sono qui .


1
Perché scegliamo la distribuzione Beta qui?
Metariat,

1
@Metallica Il motivo principale è che la Beta è il coniugato prima della distribuzione binomiale. Ciò significa che se scegliamo una Beta come precedente, anche la parte posteriore sarà Beta. Ulteriori motivi sono che la Beta è compresa tra 0 e 1 ed è molto flessibile. Include l'uniforme, per esempio. Ma qualsiasi distribuzione corretta con supporto in può essere utilizzata come precedente. È solo che il posteriore è più difficile da calcolare. (0,1)
COOLSerdash

Ti capita ancora di avere il documento per "Introduzione al pensiero bayesiano"? Il link Dropbox è morto.
bs7280,

@ bs7280 Ho aggiornato i collegamenti. Dovrebbero funzionare di nuovo ora.
COOLSerdash l'

1
@meduz A rigor di termini, non esiste un vero e proprio "non informativo" precedente. Vorrei farvi riferimento all'eccellente risposta di Tim in questa discussione.
COOLSerdash,

8

Una distribuzione beta con = 1 e = 1 equivale a una distribuzione uniforme. Quindi è in effetti uniforme. Stai cercando di trovare informazioni su un parametro di una distribuzione (in questo caso, percentuale di mancini in un gruppo di persone). La formula di Bayes afferma:αβ

P(r|Y1,...,n) =P(Y1,...,n|r)P(r)P(Y1,...,n|θ)P(r)

che hai sottolineato è proporzionale a:

P(r|Y1,...,n) (Y1,...,n|r)P(r)

Quindi in pratica stai iniziando con la tua precedente convinzione della percentuale di mancini nel gruppo (P (r), per cui stai usando una dist uniforme), quindi considerando i dati che raccogli per informare il tuo precedente (un binomio in questo caso. o sei destrorso o mancino, quindi ). Una distribuzione binomiale ha un coniugato beta precedente, il che significa che la distribuzione posterioreP(Y1,...,n|r)P(r|Y1,...n), la distribuzione del parametro dopo aver considerato i dati appartiene alla stessa famiglia del precedente. r qui non è sconosciuto alla fine. (e francamente non lo era prima di raccogliere i dati. Abbiamo una buona idea della percentuale di mancini nella società.) Hai sia la distribuzione precedente (la tua ipotesi di r) che hai raccolto i dati e mettere insieme i due. Il posteriore è il tuo nuovo presupposto della distribuzione dei mancini dopo aver considerato i dati. Quindi prendi la probabilità dei dati e li moltiplichi per un'uniforme. Il valore atteso di una distribuzione beta (che è ciò che è il poster) è . Quindi, quando hai iniziato, il tuo presupposto con = 1 eαα+βα1β= 1 era che la percentuale di mancini nel mondo era . Ora hai raccolto dati che hanno 2 mancanze su 18. Hai calcolato un posteriore. (sempre una versione beta) I tuoi valori e ora sono diversi, cambiando la tua idea della proporzione di mancini rispetto a diritti. come è cambiato? αβ12αβ


1

Nella prima parte della domanda ti viene chiesto di definire un precedente adatto per "r". Con i dati binomiali in mano sarebbe saggio scegliere una distribuzione beta. Perché allora il posteriore sarà una beta. La distribuzione Uniforme è un caso speciale di beta, puoi scegliere prima di "r" la distribuzione Uniforme che consenta che ogni possibile valore di "r" sia ugualmente probabile.

Nella seconda parte sono state fornite le informazioni relative alla distribuzione precedente "r".

Con questo in mano la risposta di @ COOLSerdash ti darà le indicazioni giuste.

Grazie per aver pubblicato questa domanda e COOLSerdash per aver fornito una risposta adeguata.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.