Stima MLE vs MAP, quando usare quale?


14

MLE = stima della massima verosimiglianza

MAP = Massimo a posteriori

MLE è intuitivo / ingenuo in quanto inizia solo con la probabilità di osservazione dato il parametro (cioè la funzione di probabilità) e cerca di trovare il parametro più adatto all'osservazione . Ma non prende in considerazione la conoscenza precedente.

MAP sembra più ragionevole perché tiene conto delle conoscenze precedenti attraverso la regola di Bayes.

Ecco una domanda correlata, ma la risposta non è completa. /signals/13174/differences-using-maximum-likelihood-or-maximum-a-posteriori-for-deconvolution-d

Quindi, penso che MAP sia molto meglio. È giusto? E quando dovrei usare quale?

Risposte:


18

Se viene fornita una probabilità precedente nell'ambito della configurazione del problema, utilizzare tali informazioni (ad es. Utilizzare MAP). Se tali informazioni precedenti non vengono fornite o presunte, allora MAP non è possibile e MLE è un approccio ragionevole.


9
Vale la pena aggiungere che MAP con priori piatti equivale a usare ML.
Tim

Vale anche la pena notare che se si desidera un precedente matematicamente "conveniente", è possibile utilizzare un coniugato precedente, se esiste per la propria situazione.
fagiolo

8

Un bayesiano sarebbe d'accordo con te, un frequentatore no. Questa è una questione di opinione, prospettiva e filosofia. Penso che faccia molto male alla comunità delle statistiche tentare di sostenere che un metodo è sempre migliore dell'altro. Molti problemi avranno soluzioni bayesiane e frequentiste che sono simili fintanto che il bayesiano non ha un passato troppo forte.


7
Non è semplicemente una questione di opinione. Ci sono situazioni definite in cui uno stimatore è migliore dell'altro.
Tom Minka,

2
@TomMinka Non ho mai detto che non ci sono situazioni in cui un metodo è migliore dell'altro! Ho semplicemente risposto alle dichiarazioni generali del PO come "MAP sembra più ragionevole". Un'affermazione del genere equivale a un'affermazione secondo cui i metodi bayesiani sono sempre migliori, il che è un'affermazione che apparentemente non siamo d'accordo.
jsk,

Jok ha ragione. Gli approcci bayesiano e frequentista sono filosoficamente diversi. Quindi un frequentatore rigoroso troverebbe inaccettabile l'approccio bayesiano.
Michael R. Chernick,

2

Supponendo di disporre di informazioni preliminari accurate, MAP è migliore se il problema ha una funzione di perdita pari a zero sulla stima. Se la perdita non è zero-uno (e in molti problemi del mondo reale non lo è), allora può accadere che il MLE raggiunga una perdita prevista inferiore. In questi casi, sarebbe meglio non limitarsi a MAP e MLE come le uniche due opzioni, poiché sono entrambe non ottimali.


Lo stimatore MAP se un parametro dipende dalla parametrizzazione, mentre la perdita "0-1" no. 0-1 tra virgolette perché, secondo il mio calcolo, tutti gli stimatori in genere danno una perdita di 1 con probabilità 1, e qualsiasi tentativo di costruire un'approssimazione introduce nuovamente il problema di parametrizzazione
ragazzo

1
Dal mio punto di vista, la perdita pari a zero dipende dalla parametrizzazione, quindi non vi sono incongruenze.
Tom Minka,

0

La breve risposta di @bean lo spiega molto bene. Tuttavia, vorrei sottolineare la sezione 1.1 del documento Gibbs Sampling per i non iniziati di Resnik e Hardisty che approfondisce la questione. Sto scrivendo poche righe di questo documento con lievi modifiche (Questa risposta ripete alcune cose che OP conosce per completezza)

MLE

Formalmente MLE produce la scelta (del parametro del modello) che molto probabilmente genera i dati osservati.

CARTA GEOGRAFICA

Una MAP stimata è la scelta che molto probabilmente viene data i dati osservati. Contrariamente a MLE, la stima MAP applica la regola di Bayes, in modo che la nostra stima possa tenere conto delle conoscenze precedenti su ciò che prevediamo che i nostri parametri siano nella forma di una distribuzione di probabilità precedente.

Catturare

Le stime MLE e MAP ci forniscono entrambe la migliore stima, secondo le rispettive definizioni di "migliore". Ma nota che l'utilizzo di un singolo preventivo, sia esso MLE o MAP, elimina le informazioni. In linea di principio, il parametro potrebbe avere qualsiasi valore (dal dominio); potremmo non ottenere stime migliori se prendessimo in considerazione l'intera distribuzione, piuttosto che un solo valore stimato per parametro? Se lo facciamo, stiamo facendo uso di tutte le informazioni sui parametri che possiamo ricavare dai dati osservati, X.

Quindi, con questa cattura, potremmo non volerne usare nessuno. Inoltre, come già accennato da fagioli e Tim, se si deve utilizzare uno di loro, utilizzare MAP se si ha prima. Se non si dispone di priori, MAP si riduce a MLE. I priori coniugati aiuteranno a risolvere analiticamente il problema, altrimenti utilizzare il campionamento di Gibbs.


0

Come sappiamo che

θ^MAP=argmaxθlogP(θ|D)=argmaxθlogP(D|θ)P(θ)P(D)=argmaxθlogP(D|θ)P(θ)=argmaxθlogP(D|θ)log-likelihood+logP(θ)regularizer

Il precedente viene trattato come un regolarizzatore e se si conosce la distribuzione precedente, ad esempio Gaussin ( ) nella regressione lineare, ed è meglio aggiungere che regolarizzazione per prestazioni migliori.exp(λ2θTθ)


-2

Se i dati sono inferiori e hai priori disponibili - "GO FOR MAP". Se disponi di molti dati, il MAP converge in MLE. Pertanto, nel caso di molti scenari di dati, è sempre meglio eseguire MLE anziché MAP.


1
Non è così semplice
Michael R. Chernick,

@MichaelChernick Potrei sbagliarmi. L'ho letto a scuola di specializzazione. Ti chiedo di correggermi dove ho sbagliato.
Heisenbug,

L'approccio frequentista e l'approccio bayesiano sono filosoficamente diversi. L'approccio in frequenza stima il valore dei parametri del modello in base al campionamento ripetuto. L'approccio bayesiano considera il parametro come una variabile casuale. Quindi nell'approccio bayesiano si ricava la distribuzione posteriore del parametro combinando una distribuzione precedente con i dati. MAP cerca il picco più alto della distribuzione posteriore mentre MLE stima il parametro osservando solo la funzione di probabilità dei dati.
Michael R. Chernick,

@MichaelChernick - Grazie per il tuo contributo. Ma MAP non si comporta come un MLE una volta che abbiamo dati suffcient. Se interrompiamo l'espressione MAP otteniamo anche un termine MLE. Con una grande quantità di dati, il termine MLE nel MAP prende il posto del precedente.
Heisenbug

Dipende dal precedente e dalla quantità di dati. Possono dare risultati simili in campioni di grandi dimensioni. La differenza sta nell'interpretazione. Il mio commento voleva dimostrare che non è così semplice come lo fai tu. Con una piccola quantità di dati non è semplicemente una questione di scegliere MAP se hai un precedente. Un precedente scelto male può portare a una scarsa distribuzione posteriore e quindi a una carente MAP.
Michael R. Chernick,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.