Confronto tra la stima della massima verosimiglianza (MLE) e il teorema di Bayes


12

Nel teorema bayesiano, , e dal libro che sto leggendo, è chiamato il probabilità , ma presumo sia solo la probabilità condizionata di dato , giusto?

p(y|x)=p(x|y)p(y)p(x)
p(x|y)yxy

La stima della massima verosimiglianza cerca di massimizzare , giusto? Se è così, sono gravemente confuso, perché sono entrambe variabili casuali, giusto? Per massimizzare è solo per scoprire la ? Un altro problema, se queste 2 variabili casuali sono indipendenti, allora è solo , giusto? Quindi massimizzare è massimizzare .x , y p ( x | y )p(x|y)x,yp(x|y) p(x|y)p(x)p(x|y)p(x)y^p(x|y)p(x)p(x|y)p(x)

O forse, è una funzione di alcuni parametri , ovvero , e MLE cerca di trovare che può massimizzare ? O anche che è in realtà i parametri del modello, non una variabile casuale, massimizzare la probabilità è trovare ?θ p ( x | y ; θ ) θ p ( x | y ) y yp(x|y)θp(x|y;θ)θp(x|y)yy^

AGGIORNARE

Sono un principiante nell'apprendimento automatico, e questo problema è una confusione dalle cose che ho letto da un tutorial di apprendimento automatico. Eccolo, dato un set di dati osservato , i valori target sono e provo ad adattare un modello a questo set di dati , quindi presumo che, dato , abbia una forma di distribuzione denominata parametrizzata da , cioè , e presumo che questa sia la probabilità posteriore , giusto?{ y 1 , y 2 , . . . , y n } x y W θ p ( y | x ; θ ){x1,x2,...,xn}{y1,y2,...,yn}xyWθp(y|x;θ)

Ora per stimare il valore di , uso MLE. OK, ecco che arriva il mio problema, penso che la probabilità sia , giusto? Massimizzare la probabilità significa che dovrei scegliere il giusto e ?p ( x | y ; θ ) θ yθp(x|y;θ)θy

Se la mia comprensione della probabilità è sbagliata, per favore mostrami la strada giusta.


Penso che la confusione sia questa: il teorema di Bayes è solo la manipolazione delle probabilità condizionali mentre dai all'inizio della tua domanda. La stima bayesiana fa uso del teorema di Bayes per fare stime di parametri. Solo in quest'ultimo caso entrano in gioco la stima della massima verosimiglianza (MLE) e il parametro theta, ecc.
Zhubarb,

@Berkan, beh, in realtà cerco di capire qual è la probabilità, dato . x,y,θ
avocado,

1
Vedo, ti consiglierei di dare un'occhiata a questo fantastico set di diapositive di lezioni introduttive nella stima dei parametri.
Zhubarb,

1
Un altro grande argomento di cui leggere sono gli stimatori di Empirical Bayes. Abbiamo appena saputo di quelli della mia classe :) biostat.jhsph.edu/~fdominic/teaching/bio656/labs/labs09/…
bdeonovic

Risposte:


16

Penso che il principale malinteso derivi dalle domande che poni nella prima metà della domanda. Mi avvicino a questa risposta come contrasto tra paradigmi inferenziali MLE e bayesiani. Una discussione molto accessibile sull'MLE può essere trovata nel capitolo 1 di Gary King, Metodologia politica unificante. L'analisi dei dati bayesiani di Gelman può fornire dettagli sul lato bayesiano.

Nel teorema di Bayes, e dal libro che sto leggendo, è chiamato il probabilità, ma presumo sia solo la probabilità condizionata di dato , giusto? p(x|y)

p(y|x)=p(x|y)p(y)p(x)
p(x|y)yxy

La probabilità è una probabilità condizionata. A un bayesiano, questa formula descrive la distribuzione del parametro dati dati e precedente . Ma poiché questa notazione non riflette la tua intenzione, d' ora in poi userò ( , ) per i parametri e per i tuoi dati.x p ( y )yxp(y)y xθyx

Ma il tuo aggiornamento indica che sono osservati da una certa distribuzione . Se inseriamo i nostri dati e parametri nelle posizioni appropriate nella regola di Bayes, scopriamo che questi parametri aggiuntivi non creano problemi per i bayesiani: p ( x | θ , y ) p ( θ | x , y ) = p ( x ,xp(x|θ,y)

p(θ|x,y)=p(x,y|θ)p(θ)p(x,y)

Credo che questa espressione sia ciò che stai cercando nel tuo aggiornamento.

La stima della massima verosimiglianza cerca di massimizzare , giusto?p(x,y|θ)

Sì. MLE postula che Cioè tratta il termine come sconosciuto (e inconoscibile) costante. Al contrario, l'inferenza bayesiana considera come una costante normalizzante (in modo che le probabilità si sommino / si integrino con l'unità) e come un'informazione chiave: il priore. Possiamo pensare a come un modo per incorrere in una penalità sulla procedura di ottimizzazione per "vagare troppo lontano" dalla regione che riteniamo più plausibile.

p(x,y|θ)p(θ|x,y)
p(x)p(θ,y)p(θ,y)p(x)p(x)p(θ,y)p(θ,y)

In tal caso, sono gravemente confuso, perché sono variabili casuali, giusto? Massimizzare è solo scoprire ?p ( x , y | θ )x,y,θp(x,y|θ)θ^

In MLE, si presume che sia una quantità fissa sconosciuta ma che può essere dedotta, non una variabile casuale. L'inferenza bayesiana considera come una variabile casuale. Funzioni di densità di probabilità mette inferenza bayesiana in e ottiene funzioni di densità di probabilità fuori , piuttosto che del punto di sintesi del modello, come in MLE. Cioè, l'inferenza bayesiana esamina l'intera gamma di valori dei parametri e la probabilità di ciascuno. MLE ritiene che sia un riepilogo adeguato dei dati forniti dal modello. θ θθ^θθ^


1
Grazie per la tua risposta, aggiorno il mio post, per favore vedi il mio aggiornamento.
avocado,

Questo aggiornamento ha cambiato radicalmente la mia comprensione della domanda. Inizialmente, ho pensato che stavi considerando come parametro e come i tuoi dati. Ora sembra che siano dati e tu sia interessato a costruire un modello che descriva la relazione tra e . Modificherò la mia risposta quando avrò tempo. yx(x,y)xy
Sycorax dice di reintegrare Monica il

+1 Questa è ancora un'ottima risposta: spero che tu la mantenga in gran parte intatta anche se la modifichi per adattarla ai cambiamenti nella domanda.
whuber

Ho aggiornato la mia risposta per riflettere la tua domanda aggiornata. Spero che questi dettagli siano di aiuto. Consiglio vivamente di fare riferimento ai riferimenti che menziono. E spero che @whuber approvi ancora. ;-)
Sycorax dice Reinstate Monica il

Grazie mille per l'aggiornamento, quindi intendi anche se prendo una forma di distribuzione per , dovrei considerare entrambi come dati osservati quando provo a stimare il ? p(y|x)x,yθ
avocado,

3

Normalmente è una funzione del parametro . Considera la seguente riformulazione del teorema di Bayes:p(x|y)y

p(θ|x)=p(x|θ)p(θ)p(x)

O ancora più esplicitamente (per quanto riguarda la nozione di probabilità):

p(θ|x)=L(θ;x)p(θ)p(x)

Per un esempio concreto, considerare il modello

X|θBinomial(θ)θBeta(α,β)

Quindi, in genere non è la variabile casuale ma , giusto? yx
avocado,

Y è di solito un parametro sul pdf di X. In un'impostazione per frequentista y è normalmente un valore fisso. In un'ambientazione bayesiana, Y è essa stessa una variabile casuale (come nell'esempio che ho fornito). X | Y può anche essere una probabilità condizionata nel senso che intendi, stavo cercando di darti la motivazione dietro perché quella quantità è chiamata probabilità.
David Marx,

Rispetto all'esempio concreto fornito nella tua risposta, vuoi dire che è in realtà una variabile casuale, ma nella distribuzione di è presa come parametro? θX
avocado,

Solo perché qualcosa è una variabile casuale non significa che non può essere un parametro. Benvenuti nel meraviglioso mondo della probabilità bayesiana :)
David Marx,

0
  • "... è chiamato probabilità ..."p(x|y)

p(x|y) è la probabilità di y dato x . Dire cosa è probabile è importante. E sì, è solo la probabilità condizionale di dato .xy

  • "... se queste 2 variabili casuali sono indipendenti, allora è solo , giusto? Quindi massimizzare è massimizzare ..."p(x|y)p(x)p(x|y)p(x)

Se sono indipendenti, cioè , la è costante rispetto a . Fai attenzione qui, poiché non specifichi ciò che stai massimizzando rispetto a - da quello che hai scritto in precedenza, suppongo che stai massimizzando rispetto a .p ( x ) y yp(x|y)=p(x)p(x)yy

  • ... O forse, è una funzione di alcuni parametri , ovvero , e MLE cerca di trovare che può massimizzare ? O anche che y è in realtà i parametri del modello, non una variabile casuale, massimizzare la probabilità è trovare il ? ...θ p ( x | y ; θ ) θ p ( x | y ) yp(x|y)θp(x|y;θ)θp(x|y)y^

L'introduzione di rende questo problema completamente nuovo. In generale, la risposta alla maggior parte di questa domanda qui sembra essere "dipende". Potremmo indicare i parametri come se lo desiderassimo e massimizzarli rispetto ad essi. Allo stesso modo, potremmo avere una situazione in cui massimizziamo rispetto ai parametri se quello fosse un modo ragionevole di affrontare il problema in questione.y p ( x | y ; θ ) θθyp(x|y;θ)θ


θy θxyθ

0

Dal manuale di riferimento STAN:

Se il precedente è uniforme, la modalità posteriore corrisponde alla stima della massima verosimiglianza (MLE) dei parametri. Se il precedente non è uniforme, la modalità posteriore viene talvolta definita la stima massima di una posteriore (MAP).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.