La citazione è un "gioco di prestigio logico" (grande espressione!), Come osservato da @whuber nei commenti all'OP. L'unica cosa che possiamo davvero dire dopo aver visto che la moneta ha una testa e una coda, è che entrambi gli eventi "testa" e "coda" non sono impossibili. Quindi potremmo scartare un precedente discreto che mette tutta la massa di probabilità su "testa" o su "coda". Ma questo non porta da solo all'uniforme precedente: la domanda è molto più sottile. Riassumiamo innanzitutto un po 'di background. Stiamo prendendo in considerazione il modello coniugato beta-binominale per l'inferenza bayesiana della probabilità delle teste di una moneta, dati lanci di monete indipendenti e distribuiti in modo identico (condizionatamente su ).n θ p ( θ | x ) x nθnθp(θ|x)quando osserviamo teste in lanci:xn
p(θ|x)=Beta(x+α,n−x+β)
possiamo dire che e svolgono i ruoli di "numero precedente di teste" e "numero precedente di code" (pseudotrial), e possono essere interpretati come dimensioni del campione effettive. Potremmo anche arrivare a questa interpretazione usando l'espressione ben nota per la media posteriore come media ponderata della media precedente e la media del campione .β α + β ααβα+β xαα+βxn
Guardando , possiamo fare due considerazioni:p(θ|x)
- poiché non abbiamo alcuna conoscenza precedente di (massima ignoranza), prevediamo intuitivamente che la dimensione effettiva del campione sia "piccola". Se fosse grande, il precedente incorporerebbe un bel po 'di conoscenza. Un altro modo di vedere questo è notare che se e sono "piccoli" rispetto a e , la probabilità posteriore non dipenderà molto dal nostro precedente, perché
e . Ci aspetteremmo che un precedente che non incorpora molta conoscenza debba rapidamente diventare irrilevante alla luce di alcuni dati.θα+βαβxn−xx+α≈xn−x+β≈n−x
Inoltre, poiché è la media precedente e non abbiamo alcuna conoscenza preliminare della distribuzione di
, ci aspetteremmo . Questo è un argomento di simmetria: se non conosciamo meglio, non ci aspetteremmo a priori che la distribuzione sia inclinata verso 0 o verso 1. La distribuzione Beta èμprior=αα+βθμprior=0.5
f(θ|α,β)=Γ(α+β)Γ(α)+Γ(β)θα−1(1−θ)β−1
Questa espressione è simmetrica solo intorno a se
.θ=0.5α=β
Per questi due motivi, qualunque sia il precedente (appartenente alla famiglia Beta - ricorda, modello coniugato!) Che scegliamo di usare, ci aspettiamo intuitivamente che e sia "piccolo". Possiamo vedere che tutti e tre i priori non informativi comunemente usati per il modello beta-binomiale condividono questi tratti, ma a parte questo, sono abbastanza diversi. E questo è ovvio: nessuna conoscenza preliminare, o "massima ignoranza", non è una definizione scientifica, quindi quale tipo di prioritario esprime "massima ignoranza", cioè che cosa è un precedente non informativo, dipende da ciò che realmente intendi come "massimo ignoranza".α=β=cc
potremmo scegliere un priore che dica che tutti i valori di sono equiprobabili, dal momento che non ne sappiamo nulla di meglio. Ancora una volta, un argomento di simmetria. Ciò corrisponde a :θα=β=1
f(θ|1,1)=Γ(2)2Γ(1)θ0(1−θ)0=1
per , cioè l'uniforme usata in precedenza da Kruschke. Più formalmente, scrivendo l'espressione per l'entropia differenziale della distribuzione Beta, puoi vedere che è massimizzato quando
. Ora, l'entropia viene spesso interpretata come una misura della "quantità di informazioni" trasportata da una distribuzione: un'entropia superiore corrisponde a meno informazioni. Quindi, potresti usare questo principio di entropia massima per dire che, all'interno della famiglia Beta, il priore che contiene meno informazioni (massima ignoranza) è questo precedente uniforme.θ∈[0,1]α=β=1
Potresti scegliere un altro punto di vista, quello usato dall'OP, e dire che nessuna informazione corrisponde a non aver visto né testa né coda, cioè
α=β=0⇒π(θ)∝θ−1(1−θ)−1
Il priore che otteniamo in questo modo si chiama priore Haldane . La funzione ha un piccolo problema: l'integrale su è infinito, cioè, indipendentemente dalla costante normalizzante, non può essere trasformato in un vero pdf. In realtà, il precedente di Haldane è un pmf appropriato , che mette probabilità 0,5 su , 0,5 su e 0 probabilità su tutti gli altri valori per . Tuttavia, non lasciamoci trasportare: per un parametro continuo , i priori che non corrispondono a un pdf corretto sono chiamati priori impropriθ−1(1−θ)−1I=[0,1]θ=0θ=1θθ. Poiché, come notato prima, tutto ciò che conta per l'inferenza bayesiana è la distribuzione posteriore, sono ammissibili priori impropri, purché la distribuzione posteriore sia corretta. Nel caso del precedente Haldane, possiamo dimostrare che il pdf posteriore è corretto se il nostro campione contiene almeno un successo e un fallimento. Quindi possiamo usare l'Haldane solo prima di osservare almeno una testa e una coda.
C'è un altro senso in cui il priore di Haldane può essere considerato non informativo: la media della distribuzione posteriore è ora
, cioè, la frequenza di campionamento delle teste, che è la stima MLE del frequentatore di
per il modello binomiale del problema del lancio della moneta. Inoltre, gli intervalli credibili per corrispondono agli intervalli di confidenza di Wald. Poiché i metodi frequentisti non specificano un precedente, si potrebbe dire che il priorato di Haldane non è informativo o corrisponde a zero conoscenze precedenti, poiché porta alla "stessa" deduzione che un frequentista farebbe.α+xα+β+n=xnθθ
Infine, è possibile utilizzare un priore che non dipende dalla parametrizzazione del problema, ad esempio il priore di Jeffreys, che per il modello Beta-Binomiale corrisponde a
α=β=12⇒π(θ)∝θ−12(1−θ)−12
quindi con una dimensione del campione effettiva di 1. Il precedente di Jeffreys ha il vantaggio di essere invariante sotto la ri-parametrizzazione dello spazio dei parametri. Ad esempio, il precedente uniforme assegna la stessa probabilità a tutti i valori di , la probabilità dell'evento "head". Tuttavia, potresti decidere di parametrizzare questo modello in termini di probabilità-log dell'evento "head", anziché . Qual è il priore che esprime la "massima ignoranza" in termini di probabilità del log, cioè che dice che tutte le possibili probabilità del log per l'evento "head" sono equiprobabili? È il precedente Haldane, come mostrato in questa risposta (leggermente enigmatica)θλ=log(θ1−θ)θ. Invece, Jeffreys è invariante sotto tutti i cambiamenti di metrica. Jeffreys ha dichiarato che un priore che non ha questa proprietà, è in qualche modo informativo perché contiene informazioni sulla metrica utilizzata per parametrizzare il problema. Il suo precedente no.
Riassumendo, non esiste una sola scelta inequivocabile per un precedente non informativo nel modello Beta-Binomiale. Ciò che scegli dipende da ciò che intendi come conoscenza precedente zero e dagli obiettivi della tua analisi.