Qual è la differenza nella stima bayesiana e nella stima della massima verosimiglianza?


50

Per favore, spiegami la differenza tra la stima bayesiana e la stima della massima verosimiglianza?


7
Dipende dal tipo di stima bayesiana. CARTA GEOGRAFICA? Media posteriore? Il risultato della riduzione al minimo del rischio di Bayes per alcune funzioni di perdita? Ognuno dei precedenti? Qualcos'altro?
Glen_b,

2
Ho risposto a questa domanda, o un analogo, qui. stats.stackexchange.com/questions/73439/… Quali problemi stai riscontrando ? Maggiori dettagli ci aiuteranno a dare una risposta migliore.
Ripristina Monica il

1
Dal manuale di riferimento STAN: "Se il precedente è uniforme, la modalità posteriore corrisponde alla stima della massima verosimiglianza (MLE) dei parametri. Se il precedente non è uniforme, la modalità posteriore è talvolta definita la massima stima a posteriore (MAP). "
Neerav,

@Neerav è la risposta di cui avevo bisogno. grazie
javadba il

Una risposta forse utile per il caso specifico della stima massima a posteriori bayesiana è fornita qui .
pglpm,

Risposte:


68

È una domanda molto ampia e la mia risposta qui inizia solo a graffiare un po 'la superficie. Userò la regola di Bayes per spiegare i concetti.

Supponiamo che una serie di parametri di distribuzione di probabilità, , spiega meglio il set di dati . Potremmo voler stimare i parametri con l'aiuto della Regola di Bayes:θDθ

p(θ|D)=p(D|θ)p(θ)p(D)

posterior=likelihoodpriorevidence

Le spiegazioni seguono:

Stima della massima verosimiglianza

Con MLE, cerchiamo un valore in punti per che massimizzi la probabilità, , mostrato nell'equazione (s) sopra. Possiamo indicare questo valore come . In MLE, è una stima puntuale, non una variabile casuale.θp(D|θ)θ^θ^

In altre parole, nell'equazione sopra, MLE tratta il termine come una costante e NON ci consente di iniettare le nostre precedenti convinzioni, , riguardo al valori probabili per nei calcoli della stima.p(θ)p(D)p(θ)θ

Stima bayesiana

La stima bayesiana, al contrario, calcola completamente (o talvolta approssima) la distribuzione posteriore . L'inferenza bayesiana considera come una variabile casuale. Nella stima bayesiana, inseriamo le funzioni di densità di probabilità ed estraiamo le funzioni di densità di probabilità, piuttosto che un singolo punto come in MLE.p(θ|D)θ

Di tutti i valori resi possibili dalla distribuzione di output , è nostro compito selezionare un valore che consideriamo meglio in un certo senso. Ad esempio, possiamo scegliere il valore atteso di supponendo che la sua varianza sia abbastanza piccola. La varianza che possiamo calcolare per il parametro dalla sua distribuzione posteriore ci consente di esprimere la nostra fiducia in qualsiasi valore specifico che possiamo usare come stima. Se la varianza è troppo grande, possiamo dichiarare che non esiste una buona stima per .θp(θ|D)θθθ

Come un compromesso, la stima bayesiana è resa complessa dal fatto che ora dobbiamo fare i conti con il denominatore nella regola di Bayes, vale a dire . Qui l'evidenza - o la probabilità dell'evidenza - è rappresentata da:evidence

p(D)=θp(D|θ)p(θ)dθ

Ciò porta al concetto di "priori coniugati" nella stima bayesiana. Per una determinata funzione di verosimiglianza, se abbiamo una scelta riguardo al modo in cui esprimiamo le nostre precedenti convinzioni, dobbiamo usare quel modulo che ci consente di effettuare l'integrazione sopra indicata. L'idea dei coniugati priori e il modo in cui sono praticamente implementati sono spiegati abbastanza bene in questo post da COOlSerdash.


1
Vuoi approfondire di più su questo? : "il denominatore nella regola di Bayes, cioè prove".
Daniel,

1
Ho esteso la mia risposta.
Zhubarb,

@Berkan nell'equazione qui, P (D | theta) è verosimile. Tuttavia, la funzione di probabilità è definita come P (theta | D), ovvero la funzione del parametro, dati dati. Sono sempre confuso su questo. Il termine verosimiglianza si riferisce a cose diverse qui? Potresti approfondire questo? Molte grazie!
zesla,

1
@zesla se la mia comprensione è corretta, P (theta | D) non è la probabilità - è il posteriore. Cioè, la distribuzione di theta dipende dall'origine dati di cui hai campioni. La verosimiglianza è come hai detto: P (D | theta) - la distribuzione dei tuoi dati come parametrizzata da theta, o forse più intuitiva, la "probabilità di vedere ciò che vedi" in funzione di theta. Ha senso? Tutti gli altri: per favore correggimi dove sbaglio.
Grisaitis

@zesla, la spiegazione data dalla grisaite è corretta.
Zhubarb,

13

Penso che tu stia parlando della stima puntuale come nell'inferenza parametrica, in modo che possiamo assumere un modello di probabilità parametrico per un meccanismo di generazione di dati ma il valore effettivo del parametro è sconosciuto.

La stima della massima verosimiglianza si riferisce all'utilizzo di un modello di probabilità per i dati e all'ottimizzazione della funzione di verosimiglianza congiunta dei dati osservati su uno o più parametri. Si è quindi visto che i parametri stimati sono più coerenti con i dati osservati rispetto a qualsiasi altro parametro nello spazio dei parametri. Si noti che tali funzioni di probabilità non sono necessariamente considerate "condizionate" ai parametri poiché i parametri non sono variabili casuali, quindi è un po 'più sofisticato concepire la probabilità di vari risultati confrontando due diverse parametrizzazioni. Si scopre che questo è un approccio filosoficamente valido.

La stima bayesiana è un po 'più generale perché non stiamo necessariamente massimizzando l'analogo bayesiano della probabilità (la densità posteriore). Tuttavia, il tipo analogo di stima (o stima della modalità posteriore) è visto come massimizzare la probabilità del parametro posteriore in base ai dati. Di solito, le stime di Bayes ottenute in questo modo si comportano quasi esattamente come quelle di ML. La differenza fondamentale è che l'inferenza di Bayes consente un metodo esplicito per incorporare informazioni preliminari.

Anche 'The Epic History of Maximum Likelihood rende una lettura illuminante

http://arxiv.org/pdf/0804.2996.pdf


Vuoi approfondire di più su questo? "Tuttavia, il tipo analogo di stima (o stima della modalità posteriore) è visto come massimizzare la probabilità del parametro posteriore in base ai dati."
Daniel,

La modalità posteriore è un po 'impropria perché, con DF continui, il valore è ben definito. Le densità posteriori sono correlate alla probabilità nel caso del frequentista, tranne per il fatto che consente di simulare i parametri dalla densità posteriore. È interessante notare che si pensa più intuitivamente alla "media posteriore" come alla migliore stima puntuale del parametro. Questo approccio viene spesso eseguito e, per densità unimodali simmetriche, produce intervalli credibili validi che sono coerenti con ML. La modalità posteriore è solo il valore del parametro all'apice della densità posteriore.
AdamO,

A proposito di "questo produce intervalli credibili validi che sono coerenti con ML": Dipende davvero dal modello, giusto? Potrebbero essere coerenti o no ...
Daniel,

1
La questione delle ipotesi parametriche sottostanti motiva una discussione sull'inferenza completamente parametrica o semi-parametrica o non parametrica. Non si tratta di un problema tra ML e Bayesiano e non sei il primo a fare questo errore. ML è un approccio completamente parametrico, che consente di stimare alcune cose che SP o NP non possono (e spesso in modo più efficiente quando possono). Specificare correttamente il modello di probabilità in ML è esattamente come scegliere il precedente corretto e tutte le proprietà di robustezza (e problemi di sensibilità) che implica.
AdamO,

A proposito, i tuoi commenti hanno acceso questa domanda nella mia mente. Qualche commento su questo? stats.stackexchange.com/questions/74164/…
Daniel

2

La stima bayesiana è l'inferenza bayesiana mentre l'MLE è un tipo di metodi di inferenza frequentista.

Secondo l'inferenza bayesiana, vale, vale a dire . Si noti che la stima della massima verosimiglianza considera il rapporto tra prove e precedenti come costante (impostando la distribuzione precedente come distribuzione uniforme, nel giocare un dado per esempio), che omette le credenze precedenti, quindi MLE è considerata una tecnica frequentista (piuttosto che bayesiana). E il precedente non può essere lo stesso in questo scenario, perché se i campioni sono abbastanza grandi gli importi MLE da MAP (per la deduzione dettagliata si prega di fare riferimento a questa risposta ).f(x1,...,xn;θ)=f(θ;x1,...,xn)f(x1,...,xn)f(θ)likelihood=posteriorevidencepriorp(θ)=1/6

L'alternativa di MLE nell'inferenza bayesiana si chiama massima stima a posteriori (MAP in breve), e in realtà MLE è un caso speciale di MAP in cui il precedente è uniforme, come vediamo sopra e come affermato in Wikipedia :

Dal punto di vista dell'inferenza bayesiana, MLE è un caso speciale di stima a posteriori massima (MAP) che presuppone una distribuzione uniforme uniforme dei parametri.

Per i dettagli, fai riferimento a questo fantastico articolo: MLE vs MAP: la connessione tra la massima verosimiglianza e la massima stima a posteriori .

E un'altra differenza è che la massima probabilità è soggetta a un eccesso di adattamento, ma se si adotta l'approccio bayesiano è possibile evitare il problema di un eccesso di adattamento.


1
Una delle cose interessanti di Bayes è che non sei obbligato a calcolare alcuna stima puntuale. L'intera densità posteriore può essere la tua "stima".
Frank Harrell,

@FrankHarrell Caro Prof. Harrell, potresti per favore aiutarmi a modificare la risposta se ho fatto degli errori terribili da qualche parte? Grazie mille!
Lerner Zhang,

1
Non intendevo implicare che tu avessi commesso un errore.
Frank Harrell,

@lerner: voglio mettere in guardia dall'identificare la stima della massima verosimiglianza come un caso particolare della stima massima a posteriori (quando il precedente è costante): vedi perché in questa risposta .
pglpm,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.