Qual è la differenza tra EM e Gradient Ascent?


Risposte:


21

A partire dal:

Xu L e Jordan MI (1996). Proprietà di convergenza dell'algoritmo EM per miscele gaussiane . Calcolo neurale 2: 129-151.

Astratto:

Mostriamo che il passo EM nello spazio dei parametri è ottenuto dal gradiente tramite una matrice di proiezione P e forniamo un'espressione esplicita per la matrice.

Pagina 2

In particolare mostriamo che il passo EM può essere ottenuto pre-moltiplicando il gradiente per una matrice di denite positiva. Forniamo un'espressione esplicita per la matrice ...

Pagina 3

Cioè, l'algoritmo EM può essere visto come un algoritmo variabile di pendenza con gradiente metrico ...

Questo è, l'articolo fornisce trasformazioni esplicite dell'algoritmo EM in gradiente-ascesa, Newton, quasi-Newton.

Da Wikipedia

Esistono altri metodi per trovare le stime della massima verosimiglianza, come la discesa del gradiente, il gradiente coniugato o le variazioni del metodo di Gauss – Newton. A differenza di EM, tali metodi richiedono in genere la valutazione del primo e / o del secondo derivato della funzione di probabilità.


5
Questa risposta sembra suggerire che EM e discesa del gradiente sono sostanzialmente lo stesso algoritmo, con trasformazioni disponibili per passare da un algoritmo all'altro. Questo non è assolutamente vero in generale e dipende fortemente dal modello generativo preso in considerazione. L'articolo citato trae solo conclusioni per i modelli di miscele gaussiane (che sono modelli generativi relativamente semplici), e giustamente. Nella mia esperienza (certamente limitata), quando il modello è altamente non lineare e il ruolo delle variabili latenti è importante, EM è l'unico modo per ricavare regole di aggiornamento sensate.
blu,

9

No, non sono equivalenti. In particolare, la convergenza EM è molto più lenta.

Se sei interessato a un punto di vista dell'ottimizzazione su EM, in questo documento vedrai che l'algoritmo EM è un caso speciale di classe più ampia di algoritmi (algoritmi di punti prossimali).


2
O per una simile idea, Hinton and Neal (1998)
coniugatoprior

2
"La convergenza dei ME è molto più lenta"; questo non è ben definito, e certamente non è generalmente vero. Gli algoritmi EM sono un'intera classe di algoritmi. Per molti problemi, un certo algoritmo EM è lo stato dell'arte.
Cliff AB,

@CliffAB, per favore, non esitare a approfondire questo, mi piacerebbe leggere i tuoi argomenti - mentre leggo questa risposta da 4 anni, mi rendo conto che non risponderei oggi. Da allora ho scoperto che in molti casi l'EM è un'ascesa a gradiente con un parametro di "tasso di apprendimento" a seconda del punto corrente ... (Potrei modificare questa risposta tra poco per indicare i risultati dell'ordinamento)
Elvis

La "convergenza più lenta" potrebbe essere definita in termini di tasso di convergenza. Il tasso di convergenza di una salita in pendenza dipenderà dalla "velocità di apprendimento", che non è facile da scegliere, rendendo difficile la salita in pendenza in molti casi. Tuttavia ho ancora la sensazione che mentre EM può essere in alcuni casi l'unico algoritmo fattibile (i derivati ​​della probabilità o la probabilità stessa sono difficili da calcolare), il suo tasso di convergenza è scarso, rispetto a un metodo simile a Newton.
Elvis,

"L'algoritmo EM" è in realtà un'intera classe di algoritmi; uno in cui la funzione target originale è difficile da ottimizzare, ma se fosse nota qualche altra variabile, la soluzione sarebbe molto più semplice (tipicamente in forma chiusa). Lo schema di base è riempire la variabile prevista in base ai valori correnti degli altri parametri, quindi aggiornare i parametri in base al valore atteso della variabile. È stato dimostrato che la rapidità con cui l'algoritmo converge dipende da quanto siano informativi i dati imputati; più "informativo" sono i dati mancanti, più lenta è la convergenza.
Cliff AB,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.