1o esempio
Un caso tipico è l' etichettatura nel contesto dell'elaborazione del linguaggio naturale. Vedi qui per una spiegazione dettagliata. L'idea è fondamentalmente di essere in grado di determinare la categoria lessicale di una parola in una frase (è un sostantivo, un aggettivo, ...). L'idea di base è che hai un modello della tua lingua che consiste in un modello markov nascosto ( HMM ). In questo modello, gli stati nascosti corrispondono alle categorie lessicali e gli stati osservati alle parole reali.
Il rispettivo modello grafico ha la forma,
dove è la sequenza di parole nella frase e è la sequenza di tag.y =(y1 , . . . , yN)x =(x1,..., xN)
Una volta allenato, l'obiettivo è trovare la sequenza corretta di categorie lessicali che corrispondono a una determinata frase di input. Questo è formulato come ricerca della sequenza di tag che sono più compatibili / molto probabilmente generati dal modello linguistico, ad es
f( y) = a r g m a xx ∈Yp ( x ) p ( y | x )
2 ° esempio
In realtà, un esempio migliore sarebbe la regressione. Non solo perché è più facile da capire, ma anche perché chiarisce le differenze tra la massima verosimiglianza (ML) e la massima a posteriori (MAP).
Fondamentalmente, il problema è quello di adattare alcune funzioni fornite dai campioni con una combinazione lineare di un insieme di funzioni di base,
dove sono le funzioni di base e sono i pesi. Di solito si presume che i campioni siano danneggiati dal rumore gaussiano. Quindi, se assumiamo che la funzione target possa essere scritta esattamente come tale combinazione lineare, allora abbiamo,t
y( x ; w ) = ∑iowioφio( x )
ϕ ( x )w
t = y( x ; w ) + ϵ
quindi abbiamo
La soluzione ML di questo problema equivale a minimizzare,p ( t | w ) = N( t | y( x ; w ) )
E( w ) = 12Σn( tn- wTϕ ( xn) )2
che produce la nota soluzione di errore meno quadrato. Ora, ML è sensibile al rumore e in determinate circostanze non è stabile. MAP ti consente di raccogliere soluzioni migliori ponendo vincoli sui pesi. Ad esempio, un caso tipico è la regressione della cresta, in cui si richiede che i pesi abbiano una norma il più piccola possibile,
E( w ) = 12Σn( tn- wTϕ ( xn) )2+ λ ∑Kw2K
che equivale a stabilire un priore gaussiano sui pesi . In tutto, i pesi stimati sonoN( w | 0 , λ- 1Io )
w = a r g m i nwp ( w ; λ ) p ( t | w ; ϕ )
Si noti che in MAP i pesi non sono parametri come in ML, ma variabili casuali. Tuttavia, sia ML che MAP sono stimatori puntuali (restituiscono un insieme ottimale di pesi, piuttosto che una distribuzione di pesi ottimali).