Distribuzione beta al lancio di una moneta


12

Il libro bayesiano di Kruschke dice, riguardo all'uso di una distribuzione beta per lanciare una moneta,

Ad esempio, se non abbiamo alcuna conoscenza precedente diversa dalla consapevolezza che la moneta ha un lato testa e un lato coda, equivale ad aver precedentemente osservato una testa e una coda, che corrisponde a a = 1 e b = 1.

Perché nessuna informazione equivarrebbe a vedere una testa e una coda: 0 teste e 0 code mi sembrano più naturali.


9
(+1) La citazione è fuorviante perché invita il lettore a equiparare due sensi molto diversi di "osservare". Il senso usato qui è quello di aver ispezionato la moneta stessa - in effetti, significa che hai capito l'impostazione sperimentale. Ma la conclusione che ciò implica dipende dal reinterpretare "osservare" nel diverso senso di aver eseguito l'esperimento due volte durante le quali un risultato era testa e l'altra coda. Questo tipo di logico gioco di prestigio è un cop-out intellettuale; fa apparire i metodi bayesiani solo arbitrari e logicamente scivolosi, il che è un peccato. a=b=1
whuber

La citazione è errata: non esiste alcuna giustificazione per un precedente di Beta (1, 1).
Neil G,

Si potrebbe facilmente sostenere che si tratta di un valore di informazioni di una singola osservazione: mezza testa / mezza coda.
Glen_b -Restate Monica

4
Tieni presente lo scopo previsto di quel passaggio nel libro. Dovrebbe essere una semplice giustificazione intuitiva per gli utenti principianti , ovviamente non un argomento matematico e sicuramente non un'affermazione che beta (1,1) è il migliore o solo vago precedente. Altrove nel libro mi prendo cura di mostrare che modeste variazioni nei vaghi priori non fanno alcuna differenza sostanziale nella parte posteriore quando c'è una quantità moderatamente grande di dati. (Ad eccezione dei fattori di Bayes, ovviamente, che sono molto sensibili al precedente!) In altri scritti ho discusso del precedente di Haldane.
John K. Kruschke,

Risposte:


17

La citazione è un "gioco di prestigio logico" (grande espressione!), Come osservato da @whuber nei commenti all'OP. L'unica cosa che possiamo davvero dire dopo aver visto che la moneta ha una testa e una coda, è che entrambi gli eventi "testa" e "coda" non sono impossibili. Quindi potremmo scartare un precedente discreto che mette tutta la massa di probabilità su "testa" o su "coda". Ma questo non porta da solo all'uniforme precedente: la domanda è molto più sottile. Riassumiamo innanzitutto un po 'di background. Stiamo prendendo in considerazione il modello coniugato beta-binominale per l'inferenza bayesiana della probabilità delle teste di una moneta, dati lanci di monete indipendenti e distribuiti in modo identico (condizionatamente su ).n θ p ( θ | x ) x nθnθp(θ|x)quando osserviamo teste in lanci:xn

p(θ|x)=Beta(x+α,nx+β)

possiamo dire che e svolgono i ruoli di "numero precedente di teste" e "numero precedente di code" (pseudotrial), e possono essere interpretati come dimensioni del campione effettive. Potremmo anche arrivare a questa interpretazione usando l'espressione ben nota per la media posteriore come media ponderata della media precedente e la media del campione .β α + β ααβα+β xαα+βxn

Guardando , possiamo fare due considerazioni:p(θ|x)

  1. poiché non abbiamo alcuna conoscenza precedente di (massima ignoranza), prevediamo intuitivamente che la dimensione effettiva del campione sia "piccola". Se fosse grande, il precedente incorporerebbe un bel po 'di conoscenza. Un altro modo di vedere questo è notare che se e sono "piccoli" rispetto a e , la probabilità posteriore non dipenderà molto dal nostro precedente, perché e . Ci aspetteremmo che un precedente che non incorpora molta conoscenza debba rapidamente diventare irrilevante alla luce di alcuni dati.θα+βαβxnxx+αxnx+βnx
  2. Inoltre, poiché è la media precedente e non abbiamo alcuna conoscenza preliminare della distribuzione di , ci aspetteremmo . Questo è un argomento di simmetria: se non conosciamo meglio, non ci aspetteremmo a priori che la distribuzione sia inclinata verso 0 o verso 1. La distribuzione Beta èμprior=αα+βθμprior=0.5

    f(θ|α,β)=Γ(α+β)Γ(α)+Γ(β)θα1(1θ)β1

    Questa espressione è simmetrica solo intorno a se .θ=0.5α=β

Per questi due motivi, qualunque sia il precedente (appartenente alla famiglia Beta - ricorda, modello coniugato!) Che scegliamo di usare, ci aspettiamo intuitivamente che e sia "piccolo". Possiamo vedere che tutti e tre i priori non informativi comunemente usati per il modello beta-binomiale condividono questi tratti, ma a parte questo, sono abbastanza diversi. E questo è ovvio: nessuna conoscenza preliminare, o "massima ignoranza", non è una definizione scientifica, quindi quale tipo di prioritario esprime "massima ignoranza", cioè che cosa è un precedente non informativo, dipende da ciò che realmente intendi come "massimo ignoranza".α=β=cc

  1. potremmo scegliere un priore che dica che tutti i valori di sono equiprobabili, dal momento che non ne sappiamo nulla di meglio. Ancora una volta, un argomento di simmetria. Ciò corrisponde a :θα=β=1

    f(θ|1,1)=Γ(2)2Γ(1)θ0(1θ)0=1

    per , cioè l'uniforme usata in precedenza da Kruschke. Più formalmente, scrivendo l'espressione per l'entropia differenziale della distribuzione Beta, puoi vedere che è massimizzato quando . Ora, l'entropia viene spesso interpretata come una misura della "quantità di informazioni" trasportata da una distribuzione: un'entropia superiore corrisponde a meno informazioni. Quindi, potresti usare questo principio di entropia massima per dire che, all'interno della famiglia Beta, il priore che contiene meno informazioni (massima ignoranza) è questo precedente uniforme.θ[0,1]α=β=1

  2. Potresti scegliere un altro punto di vista, quello usato dall'OP, e dire che nessuna informazione corrisponde a non aver visto né testa né coda, cioè

    α=β=0π(θ)θ1(1θ)1

    Il priore che otteniamo in questo modo si chiama priore Haldane . La funzione ha un piccolo problema: l'integrale su è infinito, cioè, indipendentemente dalla costante normalizzante, non può essere trasformato in un vero pdf. In realtà, il precedente di Haldane è un pmf appropriato , che mette probabilità 0,5 su , 0,5 su e 0 probabilità su tutti gli altri valori per . Tuttavia, non lasciamoci trasportare: per un parametro continuo , i priori che non corrispondono a un pdf corretto sono chiamati priori impropriθ1(1θ)1I=[0,1]θ=0θ=1θθ. Poiché, come notato prima, tutto ciò che conta per l'inferenza bayesiana è la distribuzione posteriore, sono ammissibili priori impropri, purché la distribuzione posteriore sia corretta. Nel caso del precedente Haldane, possiamo dimostrare che il pdf posteriore è corretto se il nostro campione contiene almeno un successo e un fallimento. Quindi possiamo usare l'Haldane solo prima di osservare almeno una testa e una coda.

    C'è un altro senso in cui il priore di Haldane può essere considerato non informativo: la media della distribuzione posteriore è ora , cioè, la frequenza di campionamento delle teste, che è la stima MLE del frequentatore di per il modello binomiale del problema del lancio della moneta. Inoltre, gli intervalli credibili per corrispondono agli intervalli di confidenza di Wald. Poiché i metodi frequentisti non specificano un precedente, si potrebbe dire che il priorato di Haldane non è informativo o corrisponde a zero conoscenze precedenti, poiché porta alla "stessa" deduzione che un frequentista farebbe.α+xα+β+n=xnθθ

  3. Infine, è possibile utilizzare un priore che non dipende dalla parametrizzazione del problema, ad esempio il priore di Jeffreys, che per il modello Beta-Binomiale corrisponde a

    α=β=12π(θ)θ12(1θ)12

    quindi con una dimensione del campione effettiva di 1. Il precedente di Jeffreys ha il vantaggio di essere invariante sotto la ri-parametrizzazione dello spazio dei parametri. Ad esempio, il precedente uniforme assegna la stessa probabilità a tutti i valori di , la probabilità dell'evento "head". Tuttavia, potresti decidere di parametrizzare questo modello in termini di probabilità-log dell'evento "head", anziché . Qual è il priore che esprime la "massima ignoranza" in termini di probabilità del log, cioè che dice che tutte le possibili probabilità del log per l'evento "head" sono equiprobabili? È il precedente Haldane, come mostrato in questa risposta (leggermente enigmatica)θλ=log(θ1θ)θ. Invece, Jeffreys è invariante sotto tutti i cambiamenti di metrica. Jeffreys ha dichiarato che un priore che non ha questa proprietà, è in qualche modo informativo perché contiene informazioni sulla metrica utilizzata per parametrizzare il problema. Il suo precedente no.

Riassumendo, non esiste una sola scelta inequivocabile per un precedente non informativo nel modello Beta-Binomiale. Ciò che scegli dipende da ciò che intendi come conoscenza precedente zero e dagli obiettivi della tua analisi.


0

È chiaramente errato. Osservare 1 testa e 1 croce significa che (è impossibile avere una moneta a tutte le teste) e (è impossibile avere una moneta a tutte le code). La distribuzione uniforme non è coerente con questo. Ciò che è coerente è una Beta (2,2). Dalla soluzione bayesiana al problema del lancio della moneta con un Laplace (cioè uniforme) prima del , la probabilità posteriore è .p ( θ = 1 ) = 0 θ p ( θ ) = B e t a ( h + 1 , ( N - h ) + 1 )p(θ=0)=0p(θ=1)=0θp(θ)=Beta(h+1,(Nh)+1)


Ho difficoltà a capire la tua risposta.
Michael R. Chernick,

La tua conclusione che "la distribuzione uniforme non è coerente con questo" non è corretta. Confonde la densità (che è ciò che deve essere inteso con " ") con la probabilità . La distribuzione uniforme (continua) assegna zero probabilità a qualsiasi evento atomico come o . θ = 0 θ = 1pθ=0θ=1
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.