Risposte:
A partire dal:
Xu L e Jordan MI (1996). Proprietà di convergenza dell'algoritmo EM per miscele gaussiane . Calcolo neurale 2: 129-151.
Astratto:
Mostriamo che il passo EM nello spazio dei parametri è ottenuto dal gradiente tramite una matrice di proiezione P e forniamo un'espressione esplicita per la matrice.
Pagina 2
In particolare mostriamo che il passo EM può essere ottenuto pre-moltiplicando il gradiente per una matrice di denite positiva. Forniamo un'espressione esplicita per la matrice ...
Pagina 3
Cioè, l'algoritmo EM può essere visto come un algoritmo variabile di pendenza con gradiente metrico ...
Questo è, l'articolo fornisce trasformazioni esplicite dell'algoritmo EM in gradiente-ascesa, Newton, quasi-Newton.
Da Wikipedia
Esistono altri metodi per trovare le stime della massima verosimiglianza, come la discesa del gradiente, il gradiente coniugato o le variazioni del metodo di Gauss – Newton. A differenza di EM, tali metodi richiedono in genere la valutazione del primo e / o del secondo derivato della funzione di probabilità.
No, non sono equivalenti. In particolare, la convergenza EM è molto più lenta.
Se sei interessato a un punto di vista dell'ottimizzazione su EM, in questo documento vedrai che l'algoritmo EM è un caso speciale di classe più ampia di algoritmi (algoritmi di punti prossimali).