Perché non usare il teorema di Bayes nella forma


10

Ci sono molte domande (come questa ) su alcune ambiguità con la formula bayesiana in caso continuo.

p(θ|x)=p(x|θ)p(θ)p(x)

Spesso, la confusione deriva dal fatto che la definizione della distribuzione condizionale è spiegata come essendo funzione del fisso dato .f(variable|parameter)fvariableparameter

Accanto a questo, esiste un principio di equivalenza che afferma che la probabilità può essere scritta come:

L(θ|x)=p(x|θ)

Quindi perché non usare la regola di Bayes per le distribuzioni nella seguente forma:

p(θ|x)=L(θ|x)p(θ)p(x)

sottolineare che abbiamo a che fare con le funzioni di dati dati osservati , e che il rispettivo termine è verosimiglianza (almeno, a partire da )?θxL

È una questione di tradizione o c'è qualcosa di più fondamentale in questa pratica?


Qual è il significato di ? Conosco questo come una probabilità. Ma nel caso continuo, non vedo di quale probabilità stai parlando. p()
Sesto Empirico

@MartijnWeterings, le funzioni dovrebbero essere distribuzioni di probabilità valide in tutti i casi tranne quando è "verosimiglianza" del modulo . Mi sto perdendo qualcosa? p()p(x|θ)
Iot

Cosa intendi per distribuzione di probabilità? Cumulativo, densità, ecc.?
Sesto Empirico

1
Potrebbe aiutare a fare un passo indietro e rendersi conto che non ci sono "variabili" nel teorema di Bayes, almeno mentre usi il termine. Esistono punti dati e parametri del modello. In questo senso,P(model|data)P(data)=P(data,model)=P(data|model)P(model). Invii una creatura simile a quella posterioreP(model|dun'tun')che poi chiami la probabilità. Ma non lo è. Quindi non sono sicuro di dove stai andando con questo. E in generalep(X|y)=p(y|X)p(X)=p(y) che è insensato nel caso in cui X=dun'tun' e y=model. X e ynon hanno nemmeno lo stesso supporto.
Peter Leopold,

Risposte:


7

Ci sono due risultati di base dalla probabilità che sono all'opera nel teorema di Bayes. Uno è un modo per riscrivere una funzione di densità di probabilità congiunta :

p(X,y)=p(X|y)p(y).

L'altra è una formula per calcolare una funzione di densità di probabilità condizionale :

p(y|X)=p(X,y)p(X).

Il teorema di Bayes mette insieme queste due cose:

p(θ|X)=p(X,θ)p(X)=p(X|θ)p(θ)p(X)

Quindi entrambi i dati X e i parametri θ sono variabili casuali con pdf congiunto

p(X,θ)=p(X|θ)p(θ),
ed è quello che appare nel numeratore nel teorema di Bayes. Quindi scrivendo la probabilità come densità di probabilità condizionale anziché come funzioneL dei parametri chiarisce la probabilità di base in gioco.

Detto questo, vedrai la gente usare entrambi, come qui o qui .


@iot Nelle statistiche classiche, potresti stimare i parametri trovando ilθ che massimizza p(X|θ) come una funzione di θ. Quindi la gente scriveràL(θ)=p(X|θ) e prova a calcolare θ^MLE=argmaxL(θ). In questo caso, non ti interessa lo "stato" di come pdf condizionale su . Ti preoccupi del suo stato come una funzione di a valore reale che vuoi massimizzare rispetto a . Quindi la notazione in stile è un holdover da quell'impostazione. p(X|θ)XθθL()
jcz,

10

La funzione di verosimiglianza è semplicemente proporzionale alla densità di campionamento, nel senso che hai per una costante (sebbene dovresti notare che la probabilità è una funzione del parametro, non dei dati). Se vuoi usarlo nella tua espressione per il teorema di Bayes, allora devi includere la stessa costante di ridimensionamento nel denominatore:LX(θ)=K(X)p(X|θ)K(X)>0

p(θ|X)=LX(θ)p(θ)K(X)p(X)=LX(θ)p(θ)LX(θ)p(θ) dθαLX(θ)p(θ).

Se invece usi la formula che hai proposto, finirai con un kernel della densità posteriore, ma potrebbe non integrarsi con uno (e quindi generalmente non è una densità).


2
Mi piace la tua risposta, ma nella formula originale p(X|θ) con Xessere riparato (contesto bayesiano) non ha anche una distribuzione di probabilità valida , ep(X) inoltre è un fattore di ridimensionamento non uguale a 1. Quindi, perché pensi che Kl'unità non è nella tua spiegazione?
garej

1
Abbastanza spesso formuliamo la funzione di probabilità rimuovendo le parti moltiplicative che non dipendono dal parametro di interesse. Lo facciamo al fine di semplificare l'analisi, evitando la necessità di tenere traccia di una costante integrazione. Ad esempio, sep(X|θ)=Bidone(X|n,θ) allora prenderemmo LX(θ)=θX(1-θ)n-X, rimuovendo il coefficiente binomiale nella distribuzione binomiale. In questo caso abbiamo , che generalmente non è uguale a uno. K=(nX)
Ben - Ripristina Monica il

1
quindi il punto è che esiste una convenzione secondo cui la probabilità è di solito libera da costanti inutili e quindi la versione di Iot potrebbe essere in qualche modo fuorviante per gli statistici?
garej,

Sebbene questo sia effettivamente un modo convenzionale per impostare la probabilità, il punto qui è che la funzione di probabilità è generalmente definita solo fino alla proporzionalità, quindi non vi è alcuna garanzia che nel funzionamento sopra. K=1
Ben - Ripristina Monica il

È la prima volta che leggo che la probabilità è proporzionale a una densità. Per me, questo è solo un tratto e forse sbagliato. Il problema risiede nella terminologia sovrapposta. Non dovremmo chiamare una densità una probabilità, nella regola di Bayes, ma continuiamo a farlo.
nbro,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.