Perché l'algoritmo di ottimizzazione delle aspettative è garantito per convergere in un ottimale locale?


24

Ho letto un paio di spiegazioni dell'algoritmo EM (ad es. Da Bishop's Pattern Recognition and Machine Learning e da Roger and Gerolami First Course on Machine Learning). La derivazione di EM è ok, lo capisco. Capisco anche perché l'algoritmo copre qualcosa: ad ogni passo miglioriamo il risultato e la probabilità è limitata da 1.0, quindi usando un fatto semplice (se una funzione aumenta e è limitata, allora converge) sappiamo che l'algoritmo converge in qualche soluzione.

Tuttavia, come facciamo a sapere che è un minimo locale? Ad ogni passo stiamo prendendo in considerazione solo una coordinata (variabile latente o parametri), quindi potremmo perdere qualcosa, come il minimo locale che richiede lo spostamento di entrambe le coordinate contemporaneamente.

Questo credo sia un problema simile a quello della classe generale di algoritmi di arrampicata in collina, di cui EM è un esempio. Quindi per un algoritmo generale di arrampicata su collina abbiamo questo problema per la funzione f (x, y) = x * y. Se partiamo dal punto (0, 0), solo considerando entrambe le direzioni contemporaneamente possiamo spostarci verso l'alto dal valore 0.


3
La probabilità è limitata solo per varianze fisse. Cioè, nella situazione binomiale, la varianza è p(1-p) ; o nella situazione gaussiana, se si ritiene che la varianza sia nota. Se la varianza è sconosciuta e deve essere stimata, la probabilità non è limitata. Inoltre, nell'algoritmo EM, esiste una generica separazione tra i parametri mancanti e i parametri, almeno per gli statistici frequentisti, ma le superfici possono effettivamente avere selle.
StasK

@Stask Non sono sicuro che la probabilità sia generalmente limitata anche con varianze fisse. Stai limitando a una famiglia particolare?
Glen_b

Risposte:


27

Non è garantito che EM converga al minimo locale. È garantito solo la convergenza in un punto con gradiente zero rispetto ai parametri. Quindi può davvero rimanere bloccato nei punti della sella.


1
Per esempi, vedere le pagine 20 e 38 qui , pag. 85 qui - prova "sella" nel lettore Amazon.
StasK

13

Prima di tutto, è possibile che EM converga in un minimo locale , un massimo locale o un punto di sella della funzione di probabilità. Più precisamente, come ha sottolineato Tom Minka , EM è garantito per convergere in un punto con gradiente zero .

Posso pensare a due modi per vederlo; la prima vista è pura intuizione e la seconda vista è lo schizzo di una prova formale. Innanzitutto, spiegherò brevemente come funziona EM:

tBt(θ)L(θ)θt=argmaxθBt(θ)

Massimizzazione delle aspettative come salita in pendenza

tBtLθt-1g=Bt(θt-1)=L(θt-1)θtθt-1+ηg

θ*θ*

Schizzo di una prova formale

(1)limtL(θt)-Bt(θt)=0.
(2)limtL(θt)=Bt(θt).
(1)(2)θt=argmaxθBt(θ)Bt(θt)=0limtL(θt)=0
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.