Sto cercando di capire bene l'algoritmo EM, per poterlo implementare e usarlo. Ho trascorso un'intera giornata a leggere la teoria e un documento in cui viene utilizzato EM per tracciare un aereo utilizzando le informazioni sulla posizione provenienti da un radar. Onestamente, non credo di aver compreso appieno l'idea di …
Ho studiato algoritmi per il clustering dei dati (apprendimento non supervisionato): EM e k-medie. Continuo a leggere quanto segue: k-mean è una variante di EM, con le ipotesi che i cluster siano sferici. Qualcuno può spiegare la frase sopra? Non capisco cosa significhino sferica, e come siano correlati kmean ed …
Qual è la differenza tra gli algoritmi EM (Expectation Maximization) e Gradient Ascent (o descent)? C'è qualche condizione in base alla quale sono equivalenti?
Ho letto da qualche parte che il metodo Variational Bayes è una generalizzazione dell'algoritmo EM. In effetti, le parti iterative degli algoritmi sono molto simili. Per verificare se l'algoritmo EM è una versione speciale dei Bayes variazionali, ho provato quanto segue: è dato, X è la raccolta di variabili latenti …
Ho letto un paio di spiegazioni dell'algoritmo EM (ad es. Da Bishop's Pattern Recognition and Machine Learning e da Roger and Gerolami First Course on Machine Learning). La derivazione di EM è ok, lo capisco. Capisco anche perché l'algoritmo copre qualcosa: ad ogni passo miglioriamo il risultato e la probabilità …
Nota: sto pubblicando una domanda di un mio ex studente incapace di pubblicare da solo per motivi tecnici. Dato un esempio iid da una distribuzione Weibull con pdf c'è un'utile rappresentazione variabile mancante e quindi un algoritmo EM (aspettativa-massimizzazione) associato che potrebbe essere usato per trovare l'MLE di , invece …
Da quel poco che so, l'algoritmo EM può essere usato per trovare la massima probabilità quando si imposta a zero le derivate parziali rispetto ai parametri della probabilità, fornisce una serie di equazioni che non possono essere risolte analiticamente. Ma è necessario l'algoritmo EM invece di usare una tecnica numerica …
Dopo aver eseguito l'analisi dei componenti principali (PCA), voglio proiettare un nuovo vettore nello spazio PCA (ovvero trovare le sue coordinate nel sistema di coordinate PCA). Ho calcolato PCA in linguaggio R utilizzando prcomp. Ora dovrei essere in grado di moltiplicare il mio vettore per la matrice di rotazione PCA. …
Nell'approccio dell'algoritmo EM usiamo la disuguaglianza di Jensen per arrivare a logp(x|θ)≥∫logp(z,x|θ)p(z|x,θ(k))dz−∫logp(z|x,θ)p(z|x,θ(k))dzlogp(x|θ)≥∫logp(z,x|θ)p(z|x,θ(k))dz−∫logp(z|x,θ)p(z|x,θ(k))dz\log p(x|\theta) \geq \int \log p(z,x|\theta) p(z|x,\theta^{(k)}) dz - \int \log p(z|x,\theta) p(z|x,\theta^{(k)})dz e definire daθ(k+1)θ(k+1)\theta^{(k+1)}θ(k+1)=argmaxθ∫logp(z,x|θ)p(z|x,θ(k))dzθ(k+1)=argmaxθ∫logp(z,x|θ)p(z|x,θ(k))dz\theta^{(k+1)}=\arg \max_{\theta}\int \log p(z,x|\theta) p(z|x,\theta^{(k)}) dz Tutto ciò che leggo EM lo fa semplicemente cadere, ma mi sono sempre sentito a disagio non avendo …
Voglio implementare l'algoritmo EM manualmente e poi confrontarlo con i risultati normalmixEMdel mixtoolspacchetto. Certo, sarei felice se entrambi conducessero agli stessi risultati. Il riferimento principale è Geoffrey McLachlan (2000), Modelli di miscele finite . Ho una densità mista di due gaussiani, in forma generale, la probabilità di log è data …
Considera la probabilità di log di una miscela di gaussiani: l(Sn;θ)=∑t=1nlogf(x(t)|θ)=∑t=1nlog{∑i=1kpif(x(t)|μ(i),σ2i)}l(Sn;θ)=∑t=1nlogf(x(t)|θ)=∑t=1nlog{∑i=1kpif(x(t)|μ(i),σi2)}l(S_n; \theta) = \sum^n_{t=1}\log f(x^{(t)}|\theta) = \sum^n_{t=1}\log\left\{\sum^k_{i=1}p_i f(x^{(t)}|\mu^{(i)}, \sigma^2_i)\right\} Mi chiedevo perché era difficile dal punto di vista computazionale massimizzare quell'equazione direttamente? Stavo cercando una chiara intuizione solida sul perché dovrebbe essere ovvio che è difficile o forse una spiegazione …
Sto cercando di imparare come usare Markov Random Fields per segmentare le regioni in un'immagine. Non capisco alcuni dei parametri nell'MRF o perché la massimizzazione delle aspettative che eseguo non riesca a convergere in una soluzione a volte. A partire dal teorema di Bayes, ho p(x|y)=p(y|x)p(x)/p(y)p(x|y)=p(y|x)p(x)/p(y)p(x|y) = p(y|x) p(x) / …
La procedura EM appare, ai non iniziati, come magia nera più o meno. Stimare i parametri di un HMM (ad esempio) utilizzando dati supervisionati. Quindi decodifica i dati senza tag, usando avanti-indietro per "contare" gli eventi come se i dati fossero taggati, più o meno. Perché questo rende il modello …
Ci sono molte pubblicazioni che enfatizzano il metodo di massimizzazione delle aspettative su modelli di miscele (Miscela di gaussiana, modello nascosto di Markov, ecc.). Perché EM è importante? EM è solo un modo per fare l'ottimizzazione e non è ampiamente usato come metodo basato sul gradiente (gradiente decente o metodo …
So che k-medie è di solito ottimizzato usando l'ottimizzazione delle aspettative . Tuttavia, potremmo ottimizzare la sua funzione di perdita nello stesso modo in cui ne ottimizziamo tutti gli altri! Ho trovato alcuni documenti che usano effettivamente la pendenza stocastica del gradiente per k-medie su larga scala, ma non sono …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.