Perché l'ottimizzazione delle aspettative è importante per i modelli di miscele?


15

Ci sono molte pubblicazioni che enfatizzano il metodo di massimizzazione delle aspettative su modelli di miscele (Miscela di gaussiana, modello nascosto di Markov, ecc.).

Perché EM è importante? EM è solo un modo per fare l'ottimizzazione e non è ampiamente usato come metodo basato sul gradiente (gradiente decente o metodo di newton / quasi-newton) o altro metodo privo di gradiente discusso QUI . Inoltre, EM ha ancora problemi minimi locali.

È perché il processo è intuitivo e può essere facilmente trasformato in codice? O quali altri motivi?

Risposte:


14

In linea di principio, entrambi gli approcci di ottimizzazione EM e standard possono funzionare per adattarsi alle distribuzioni di miscele. Come EM, i risolutori di ottimizzazione convessi convergeranno in un ottimale locale. Esistono tuttavia una varietà di algoritmi di ottimizzazione per cercare soluzioni migliori in presenza di molteplici optima locali. Per quanto ne so, l'algoritmo con la migliore velocità di convergenza dipenderà dal problema.

Un vantaggio di EM è che produce naturalmente parametri validi per la distribuzione della miscela su ogni iterazione. Al contrario, gli algoritmi di ottimizzazione standard avrebbero bisogno di essere imposti. Ad esempio, supponiamo che stia adattando un modello di miscela gaussiana. Un approccio di programmazione non lineare standard richiederebbe che le matrici di covarianza vincolanti siano semidefinite positive e che i pesi dei componenti della miscela siano non negativi e si sommino a uno.

Per ottenere buone prestazioni su problemi di dimensioni elevate, un solutore di programmazione non lineare in genere deve sfruttare il gradiente. Quindi, dovresti derivare il gradiente o calcolarlo con la differenziazione automatica. Le sfumature sono necessarie anche per le funzioni di vincolo se non hanno un modulo standard. Anche il metodo di Newton e gli approcci correlati (ad esempio i metodi della regione di fiducia) hanno bisogno dell'Assia. Differenze finite o metodi privi di derivati ​​potrebbero essere usati se il gradiente non è disponibile, ma le prestazioni tendono a ridimensionarsi male all'aumentare del numero di parametri. Al contrario, EM non richiede il gradiente.

EM è concettualmente intuitivo, il che è una grande virtù. Ciò vale spesso anche per gli approcci di ottimizzazione standard. Esistono molti dettagli di implementazione, ma il concetto generale è semplice. Spesso è possibile utilizzare solutori di ottimizzazione standard che astraggono questi dettagli sotto il cofano. In questi casi, un utente deve solo fornire la funzione obiettiva, i vincoli e le sfumature e avere sufficienti conoscenze operative per selezionare un risolutore adatto al problema. Tuttavia, sono necessarie conoscenze specializzate se arrivano al punto in cui l'utente deve pensare o implementare dettagli di basso livello dell'algoritmo di ottimizzazione.

Un altro vantaggio dell'algoritmo EM è che può essere utilizzato nei casi in cui mancano alcuni valori di dati.

Anche di interesse (compresi i commenti):


I vincoli nel caso dei modelli di miscele possono spesso essere imposti mediante riparametrizzazione. Ad esempio può essere fatto ottimizzando su q iR e p i = exp ( q i )ipi=1qiRpi=exp(qi)jexp(qj)

1
CUC=UTUC

U0

Decomposizione destra, destra, cholesky. Molto meglio.
user20160,

1
+1 ottima risposta! potresti spiegare di più su "produce naturalmente parametri validi per la distribuzione della miscela su ogni iterazione"? Per altri metodi, abbiamo ancora valori delle variabili di decisione per ogni iterazione, giusto?
Haitao Du,

2

Penso che la risposta di user20160 fornisca un'ottima spiegazione, la ragione più importante per cui i metodi basati sul gradiente non sono adatti qui è il vincolo per le matrici di covarianza di essere semidefinite positivo e i coefficienti di miscelazione per essere non negativi e sommare a uno.

Voglio solo sottolineare che se limitiamo le matrici di covarianza a essere diagonali, allora questi due vincoli possono essere espressi facilmente.

Σ=[σ12σN2]
ϕk=epk/Kepi

Inoltre, ciò ci consente di ottimizzare direttamente per la vera probabilità anziché il limite inferiore variazionale (ELBO), eliminando così la necessità di variabili latenti.

Tuttavia anche in questi casi l'EM risulta spesso un algoritmo migliore del gradiente decente.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.