Perché è richiesto il fattore di normalizzazione nel teorema di Bayes?

20

Il teorema di Bayes va

P (model | data) = \frac{P (model) \times P (data | model)}{P (data)}

$P(\textrm{model}|\textrm{data}) = \frac{P(\textrm{model}) \times P(\textrm{data}|\textrm{model})}{P(\textrm{data})}$

Va tutto bene. Ma ho letto da qualche parte:

Fondamentalmente, P (dati) non è altro che una costante normalizzante, cioè una costante che rende la densità posteriore integrata a una.

Sappiamo che e . $0 \leq P(\textrm{model}) \leq 1$ $0 \leq P(\textrm{data}|\textrm{model}) \leq 1$

Pertanto, deve essere compreso anche tra 0 e 1. In tal caso, perché abbiamo bisogno di una costante normalizzante per integrare il posteriore in uno? $P(\textrm{model}) \times P(\textrm{data}|\textrm{model})$

— Sreejith Ramakrishnan
fonte

4

Quando lavori con densità di probabilità , come menzionato in questo post, non puoi più concludere 0 <= P(model) <= 1né 0 <= P(data/model) <= 1, perché nessuno dei due (o anche entrambi!) Potrebbe superare (e persino essere infinito). Vedi stats.stackexchange.com/questions/4220 .

1

$1$

— whuber

1

Non è il caso che perché questa vaga notazione rappresenti la probabilità integrata dei dati, non una probabilità.

P (data | model) \leq 1

$P(\textrm{data}|\textrm{model})\le 1$

— Xi'an,

15

Innanzitutto , l'integrale di "verosimiglianza x precedente" non è necessariamente 1 .

Non è vero che se:

$0 \leq P(\textrm{model}) \leq 1$ e $0 \leq P(\textrm{data}|\textrm{model}) \leq 1$

quindi l'integrale di questo prodotto rispetto al modello (in effetti ai parametri del modello) è 1.

Dimostrazione. Immagina due densità discrete:

P (model) = [0.5, 0.5] (this is called "prior") P (data | model) = [0.80, 0.2] (this is called "likelihood")

$P(\textrm{model}) = [0.5, 0.5] \text{ (this is called "prior")}\\ P(\textrm{data | model}) = [0.80, 0.2] \text{ (this is called "likelihood")}\\$

Se li moltiplichi entrambi ottieni: che non è una densità valida poiché non si integra con uno:

[0.40, 0.25]

$[0.40, 0.25]$

0.40 + 0.25 = 0.65

$0.40 + 0.25 = 0.65$

Quindi, cosa dovremmo fare per forzare l'integrale ad essere 1? Usa il fattore di normalizzazione, ovvero:

\sum_{model_params} P (model) P (data | model) = \sum_{model_params} P (model, data) = P (data) = 0.65

$\sum_{\text{model_params}} P(\text{model}) P(\text{data | model}) = \sum_\text{model_params} P(\text{model, data}) = P(\text{data}) = 0.65$

(scusate per la povera notazione. Ho scritto tre espressioni diverse per la stessa cosa poiché potreste vederle tutte in letteratura)

In secondo luogo , la "probabilità" può essere qualsiasi cosa e anche se è una densità, può avere valori superiori a 1 .

Come ha detto @whuber, questi fattori non devono essere compresi tra 0 e 1. Hanno bisogno che il loro integrale (o somma) sia 1.

Terzo [extra], "coniugati" sono i tuoi amici per aiutarti a trovare la costante normalizzante .

Vedrai spesso: perché il denominatore mancante può essere facilmente ottenere integrando questo prodotto. Si noti che questa integrazione avrà un risultato ben noto se il precedente e la probabilità sono coniugati .

P (model | data) \propto P (data | model) P (model)

$P(\textrm{model}|\textrm{data}) \propto P(\textrm{data}|\textrm{model}) P(\text{model})$

— alberto
fonte

+1. Questa è l'unica risposta che in realtà affronta la domanda originale del perché la costante di normalizzazione è necessaria per integrare il posteriore con uno . Quello che fai in seguito (ad es. Inferenza MCMC o calcolo delle probabilità assolute) è una questione diversa.

— Pedro Mediano,

P (m o d e l) = [0.5, 0.5]

$P(model)=[0.5,0.5]$

σ^{2} = 1

$\sigma^2=1$

μ

$\mu$

P (μ) = [0.5, 0.5]

$P(\mu) = [0.5, 0.5]$

μ

$\mu$

12

La risposta breve alla tua domanda è che senza il denominatore, l'espressione sul lato destro è semplicemente una probabilità , non una probabilità , che può variare solo da 0 a 1. La "costante normalizzante" ci consente di ottenere la probabilità di il verificarsi di un evento, piuttosto che semplicemente la relativa probabilità di quell'evento rispetto a un altro.

— heropup
fonte

8

Hai già ottenuto due risposte valide, ma lasciami aggiungere i miei due centesimi.

Il teorema di Bayes è spesso definito come:

P (model | data) \propto P (model) \times P (data | model)

$P(\text{model}~ | ~\text{data}) \propto P(\text{model}) \times P(\text{data}~|~\text{model})$

perché l'unico motivo per cui hai bisogno della costante è che si integri con 1 (vedi le risposte degli altri). Ciò non è necessario nella maggior parte degli approcci di simulazione MCMC all'analisi bayesiana e quindi la costante viene eliminata dall'equazione. Così, per la maggior parte delle simulazioni è non ancora richiesto.

Io amo la descrizione da Kruschke : l'ultimo cucciolo (costante) è sonnolenta perché non ha nulla a che fare nella formula.

inserisci qui la descrizione dell'immagine

Inoltre alcuni, come Andrew Gelman, considerano la costante "sopravvalutata" e "sostanzialmente insignificante quando le persone usano i priori piatti" (controlla la discussione qui ).

— Tim
fonte

9

+1 all'introduzione dei cuccioli. "Nessun animale è stato ferito nella stesura di questa risposta" :)

— alberto