MAP è una soluzione a


10

Mi sono imbattuto in queste diapositive (diapositiva n. 16 e n. 17) in uno dei corsi online. L'istruttore stava cercando di spiegare come la massima stima posteriore (MAP) sia effettivamente la soluzione L(θ)=io[θθ*] , dove θ* è il vero parametro.

Qualcuno può spiegare come segue?

Modifica: aggiunte le diapositive, nel caso in cui il collegamento si interrompa. inserisci qui la descrizione dell'immagine

inserisci qui la descrizione dell'immagine

Risposte:


3

Dall'esame delle diapositive che hai condiviso, mi sembra che l'idea sia di spiegare come la stima MAP può essere utilizzata per stimare diverse proprietà del posteriore, come media, modalità e mediana. Cercherò di spiegarlo nel contesto degli stimatori generali bayesiani come presentato nel libro di Stephen M. Kay, Fondamenti di elaborazione del segnale statistico .

Cominciamo considerando tre tipi di rischio (ovvero funzioni di costo) associati alla stima del parametro θ :

  1. C(e)=e2
  2. C(e)=|e|
  3. ifδ<e<δ,C(e)=0 ; altrimentiC(e)=1

dove, e=θθ^ , in cui θ è il valore stimato e θ è il vero parametro. Nella stima bayesiana, l'obiettivo è minimizzare il rischio atteso, ovvero:θ^θ

E[C(e)]=XθC(e)p(X,θ)dθdX=X[θC(e)p(θ|X)dθ]p(X)dX

poiché ci preoccupiamo solo di θ , ci concentreremo sul minθθC(e)p(θ|X)dθ integrale interno θθ C ( e ) p ( θ | X ) d θ .

Ora, a seconda di quale C(e) scegliamo, lo stimatore ci darà una diversa proprietà del posteriore. Ad esempio, se scegliamo il primo caso, C(e)=e2 , la minimizzazioneθ perθC(e)p(θ|X)dθ è la media. Dal momento che stai domanda è per quanto riguarda la funzione di indicatore diio[θ^θ], Affronterò il terzo rischio sopra menzionato (che se ci pensate per δ0 equivale a usare l'indicatore).

Per il caso 3 sopra:

θC(e)p(θ|X)dθ=-θ^-δp(θ|X)dθ+θ^+δp(θ|X)dθ=1-θ^+δθ^+δp(θ|X)dθ

che per δ0 viene minimizzato quando θ corrisponde alla modalità del posteriore.θ^


2
Grazie per la meravigliosa spiegazione. Inoltre, i lettori futuri possono leggere lo stesso in un libro di testo simile: Capitolo 5 di Machine_Learning a Probabilistic Perspective di Kevin Murphy
honeybadger,

Potresti specificare i dettagli di questo argomento limitativo in ? Intendi il limite della procedura quando δ va a zero o il limite della perdita posteriore? δδ
Xi'an,

Mi riferisco al limite dell'aspettativa . E[C(e)]
idnavid,

10

Nel caso specifico spazio dei parametri sia finito o infinito numerabile Θ = { θ 1 , θ 2 , ... } perdita posteriori associate con la perdita indicatore è uguale alla probabilità di sbagliare P ( θθ | x ) e viene minimizzata quando la probabilità a posteriori di essere corretta P ( θ = θ | x ) è massimizzato. Ciò significa che θ è la modalità di distribuzione posteriore o il MAP.Θ

Θ={θ1,θ2,...}
P(θ^θ|X)P(θ^=θ|X)θ^

Tuttavia, questa associazione di MAP e perdita è un "teorema popolare" nel senso che non è corretta nella maggior parte delle impostazioni, ad esempio, che non regge per spazi parametro continuo in cui P ( θ = θ | x ) = 0 per tutti θ 's ed esso ulteriori conflitti con i risultati di Druihlet e Marin (BA, 2007), che sottolineano che la mappa in ultima analisi, dipende dalla scelta della misura dominante. (Anche se la misura di Lebesgue viene scelta implicitamente come impostazione predefinita.)0-1P(θ^=θ|X)=0θ^

Ad esempio, Evans e Jang hanno pubblicato un articolo di arXiv nel 2011 in cui discutono della connessione tra MAP, stimatori con sorpresa relativa (o massima probabilità del profilo) e funzioni di perdita. Il nocciolo della questione è che né gli stimatori MAP, né gli MLE sono realmente giustificati da un approccio teorico-decisionale, almeno in uno spazio di parametri continuo. E che la misura dominante [scelta arbitrariamente] sullo spazio dei parametri influisce sul valore del MAP, come dimostrato da Druihlet e Marin nel 2007. Iniziano nel caso finito con la funzione di perdita dove considerano la stima della trasformazione Ψ (θ) per d, inversamente ponderata dal marginale precedente a questa trasformazione. Nel caso speciale della trasformazione dell'identità, questa funzione di perdita porta all'MLE come lo stimatore di Bayes. Nel caso generale, lo stimatore Bayes è lo stimatore della massima verosimiglianza del profilo (LRSE). Tuttavia, questa funzione di perdita non si generalizza in spazi numerici infiniti (e ovviamente continui) e in tali impostazioni gli autori possono fornire LRSE solo come limiti delle procedure di Bayes. La funzione di perdita adottata nel caso numerabile è ad esempio L ( θ , d ) = I { Ψ (

L(θ,d)=io{Ψ(θ)d)/πΨ(Ψ(θ))
con il limite decrescente a zero. Nel caso continuo, l'indicatore non funziona più, quindi la scelta fatta dagli autori è di discretizzare lo spazio Ψ (Θ) con una scelta specifica di una partizione di sfere il cui diametro λ va a zero. Nello spirito di Druihlet e Marin, questa scelta dipende da una metrica (e da ulteriori condizioni di regolarità). Inoltre, l'LRSE stesso max ψ π ψ ( ψ | x ) / π ψ ( θ
L(θ,d)=io{Ψ(θ)d}/max{η,πΨ(Ψ(θ))}
dipende dalla versione scelta per le densità (se non dalla misura dominante), a meno che non si imponga ovunque l'uguaglianza di Bayes π ψ ( ψ | x ) / π ψ ( θ ) = f ( x | ψ ) / m ( x ) ovunque, quando f ( x | ψ ) = { θ ; Ψ ( θ ) = ψ } f ( x |
maxψπψ(ψ|X)/πψ(θ)
πψ(ψ|X)/πψ(θ)=f(X|ψ)/m(X)
e m ( x )
f(X|ψ)={θ;Ψ(θ)=ψ}f(X|θ)π(θ)dθ
nello spirito delnostro paradosso di Savage-Dickey.
m(X)=f(X|θ)π(θ)dθ

Robert Bassett e Julio Deride hanno pubblicato un documento nel 2016 discutendo la posizione dei MAP nella teoria delle decisioni bayesiane.

"... forniamo un controesempio alla nozione comunemente accettata di stimatori MAP come limite degli stimatori di Bayes con perdita 0-1."

Gli autori menzionano il mio libro The Bayesian Choice affermando questa proprietà senza ulteriori precauzioni e sono completamente d'accordo sul fatto di essere negligente in questo senso! La difficoltà sta nel fatto che il limite dei massimizzatori non è necessariamente il massimizzatore del limite. L'articolo include un esempio in tal senso, con un precedente come sopra, associato a una distribuzione di campionamento che non dipende dal parametro. Le condizioni sufficienti ivi proposte sono che la densità posteriore è quasi sicuramente corretta o quasiconcava.

Vedi anche una caratterizzazione alternativa degli stimatori di MAP da parte di Burger e Lucka come stimatori di Bayes adeguati sotto un altro tipo di funzione di perdita , sebbene piuttosto artificiale. Gli autori di questo articolo arXived iniziano con una distanza basata sul precedente; chiamata la distanza di Bregman, che può essere la distanza quadratica o entropica a seconda del precedente. Definire una funzione di perdita che è un mix di questa distanza di Bregman e della distanza quadratica

||K(u^-u)||2+2Dπ(u^,u)
produce la MAP come stimatore di Bayes. Si potrebbe ancora chiedersi della misura dominante, ma sia la funzione di perdita che lo stimatore risultante dipendono chiaramente dalla scelta della misura dominante ... (La perdita dipende dal precedente ma questo non è un inconveniente di per sé.)

1

Darò il riassunto del testo menzionato su questo problema nel capitolo 5, Statistiche bayesiane, Apprendimento automatico: una prospettiva probabilistica - di Murphy .

Xp(θ|X)

A differenza della media o della mediana, questo è un punto "atipico", nel senso che non considera tutti gli altri punti mentre viene stimato. Nel caso della stima della media / mediana, prendiamo in considerazione tutti gli altri punti.

Quindi, come previsto, nelle distribuzioni posteriori molto inclinate, la MAP (e, per estensione, la MLE) non rappresenta veramente la realtà posteriore.

Quindi, come possiamo sintetizzare un posteriore usando una stima puntuale come Media / Mediana / Modalità?

L(θ,θ^)θθ^

L(θ,θ^)io(θ^θ|X)θio(θ^=θ|X)θ.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.