Esempio di massima stima a posteriori

Ho letto della stima della massima verosimiglianza e della massima stima a posteriori e finora ho incontrato esempi concreti solo con la stima della massima verosimiglianza. Ho trovato alcuni esempi astratti di massima stima a posteriori, ma nulla di concreto ancora con numeri su di esso: S

Può essere molto travolgente, lavorare solo con variabili e funzioni astratte e, per non affogare in questa astrattezza, è bello mettere in relazione le cose con il mondo reale di volta in volta. Ma ovviamente, questa è solo la mia (e alcune altre persone) osservazioni :)

Pertanto, qualcuno potrebbe darmi un semplice, ma concreto esempio di stima del massimo A Posteriore con numeri su di esso? Sarebbe di grande aiuto :)

Grazie!

Originariamente ho pubblicato questa domanda su MSE, ma non ho potuto ottenere una risposta lì:

/math/449386/example-of-maximum-a-posteriori-estimation

Ho seguito le istruzioni fornite qui sul cross posting:

http://meta.math.stackexchange.com/questions/5028/how-do-i-move-a-post-to-another-forum-like-cv-stats

bayesian estimation posterior

— jjepsuomi
fonte

1o esempio

Un caso tipico è l' etichettatura nel contesto dell'elaborazione del linguaggio naturale. Vedi qui per una spiegazione dettagliata. L'idea è fondamentalmente di essere in grado di determinare la categoria lessicale di una parola in una frase (è un sostantivo, un aggettivo, ...). L'idea di base è che hai un modello della tua lingua che consiste in un modello markov nascosto ( HMM ). In questo modello, gli stati nascosti corrispondono alle categorie lessicali e gli stati osservati alle parole reali.

Il rispettivo modello grafico ha la forma,

modello grafico di un HMM canonico

dove è la sequenza di parole nella frase e è la sequenza di tag. $\mathbf{y} = (y1,...,y_{N})$ $\mathbf{x} = (x1,...,x_{N})$

Una volta allenato, l'obiettivo è trovare la sequenza corretta di categorie lessicali che corrispondono a una determinata frase di input. Questo è formulato come ricerca della sequenza di tag che sono più compatibili / molto probabilmente generati dal modello linguistico, ad es

f (y) = {a r g m a x}_{x \in Y} p (x) p (y | x)

$f(y) = \mathbf{argmax}_{\mathbf{x} \in Y}p(\mathbf{x})p(\mathbf{y}|\mathbf{x})$

2 ° esempio

In realtà, un esempio migliore sarebbe la regressione. Non solo perché è più facile da capire, ma anche perché chiarisce le differenze tra la massima verosimiglianza (ML) e la massima a posteriori (MAP).

Fondamentalmente, il problema è quello di adattare alcune funzioni fornite dai campioni con una combinazione lineare di un insieme di funzioni di base, dove sono le funzioni di base e sono i pesi. Di solito si presume che i campioni siano danneggiati dal rumore gaussiano. Quindi, se assumiamo che la funzione target possa essere scritta esattamente come tale combinazione lineare, allora abbiamo, $t$

y (x; w) = \sum_{i} w_{i} ϕ_{i} (x)

$y(\mathbf{x};\mathbf{w}) = \sum_{i}w_{i}\phi_{i}(\mathbf{x})$

ϕ (x)

$\phi(\mathbf{x})$

w

$\mathbf{w}$

t = y (x; w) + ϵ

$t = y(\mathbf{x};\mathbf{w}) + \epsilon$

quindi abbiamo La soluzione ML di questo problema equivale a minimizzare, $p(t|\mathbf{w}) = \mathcal{N}(t|y(\mathbf{x};\mathbf{w}))$

E (w) = \frac{1}{2} \sum_{n} {(t_{n} - w^{T} ϕ (x_{n}))}^{2}

$E(\mathbf{w}) = \frac{1}{2}\sum_{n}\left(t_{n} - \mathbf{w}^{T}\phi(\mathbf{x}_{n}) \right)^{2}$

che produce la nota soluzione di errore meno quadrato. Ora, ML è sensibile al rumore e in determinate circostanze non è stabile. MAP ti consente di raccogliere soluzioni migliori ponendo vincoli sui pesi. Ad esempio, un caso tipico è la regressione della cresta, in cui si richiede che i pesi abbiano una norma il più piccola possibile,

E (w) = \frac{1}{2} \sum_{n} {(t_{n} - w^{T} ϕ (x_{n}))}^{2} + λ \sum_{k} w_{k}^{2}

$E(\mathbf{w}) = \frac{1}{2}\sum_{n}\left(t_{n} - \mathbf{w}^{T}\phi(\mathbf{x}_{n}) \right)^{2} + \lambda \sum_{k}w_{k}^{2}$

che equivale a stabilire un priore gaussiano sui pesi . In tutto, i pesi stimati sono $\mathcal{N}(\mathbf{w}|\mathbf{0},\lambda^{-1}\mathbf{I})$

w = {a r g m i n}_{w} p (w; λ) p (t | w; ϕ)

$\mathbf{w} = \mathbf{argmin}_{w}p(\mathbf{w};\lambda)p(t|\mathbf{w};\phi)$

Si noti che in MAP i pesi non sono parametri come in ML, ma variabili casuali. Tuttavia, sia ML che MAP sono stimatori puntuali (restituiscono un insieme ottimale di pesi, piuttosto che una distribuzione di pesi ottimali).

— jpmuc
fonte

+1 Ciao @juampa, grazie per la tua risposta :) Ma sto ancora cercando l'esempio più concreto :)

— jjepsuomi,

Grazie ancora @juampa. Come procederesti ora a trovare che minimizza l'argmin? Usi il gradiente o qualche algoritmo iterativo come il metodo di Newton ecc.?

w

$w$

— jjepsuomi,

Esattamente. Si potrebbe risolverlo direttamente (esiste una soluzione in forma chiusa) ma comporta l'inversione di una matrice . E questo è il motivo dell'uso di metodi iterativi (specialmente quando si affrontano problemi dimensionali elevati).

O (n^{3})

$O(n^{3})$

— jpmuc,

La prima equazione ?

f (y) = {a r g m a x}_{x \in X} p (x) p (y | x)

$f(y) = \mathbf{argmax}_{\mathbf{x} \in X}p(\mathbf{x})p(\mathbf{y}|\mathbf{x})$

— Lerner Zhang,