Algoritmo EM implementato manualmente

Voglio implementare l'algoritmo EM manualmente e poi confrontarlo con i risultati normalmixEMdel mixtoolspacchetto. Certo, sarei felice se entrambi conducessero agli stessi risultati. Il riferimento principale è Geoffrey McLachlan (2000), Modelli di miscele finite .

Ho una densità mista di due gaussiani, in forma generale, la probabilità di log è data da (McLachlan pagina 48):

\log L_{c} (Ψ) = \sum_{i = 1}^{g} \sum_{j = 1}^{n} z_{i j} {\log π_{i} + \log f_{i} (y_{i}; θ_{i})} .

$\log L_c(\Psi) = \sum_{i=1}^g \sum_{j=1}^n z_{ij}\{\log \pi_i + \log f_i(y_i;\theta_i)\}.$ Il sono , se l'osservazione è stato dal^° densità dei componenti, altrimenti

. Il

è la densità della distribuzione normale. Il

è la proporzione della miscela, quindi

è la probabilità, che un'osservazione

dalla prima distribuzione gaussiana e

sia la probabilità, che un'osservazione

dalla seconda distribuzione gaussiana.

z_{i j}

$z_{ij}$

1

$1$

i

$i$

0

$0$

f_{i}

$f_i$

π

$\pi$

π_{1}

$\pi_1$

π_{2}

$\pi_2$

Il passaggio E ora è, il calcolo dell'aspettativa condizionale:

Q (Ψ; Ψ^{(0)}) = E_{Ψ (0)} {\log L_{c} (| Ψ) | y} .

$Q(\Psi;\Psi^{(0)}) = E_{\Psi(0)}\{\log L_c(|\Psi)|y\}.$ che porta, dopo alcune derivazioni al risultato (pagina 49):

\begin{aligned} τ_{i} (y_{j}; Ψ^{(k)}) & = \frac{π_{i}^{(k)} f_{i} (y_{j}; θ_{i}^{(k)}}{f (y_{j}; Ψ^{(k)}} \\ = \frac{π_{i}^{(k)} f_{i} (y_{j}; θ_{i}^{(k)}}{\sum_{h = 1}^{g} π_{h}^{(k)} f_{h} (y_{j}; θ_{h}^{(k)})} \end{aligned}

$\begin{align} \tau_i(y_j;\Psi^{(k)}) &= \frac{\pi_i^{(k)}f_i(y_j;\theta_i^{(k)}}{f(y_j;\Psi^{(k)}} \\[8pt] &= \frac{\pi_i^{(k)}f_i(y_j;\theta_i^{(k)}}{\sum_{h=1}^g \pi_h^{(k)}f_h(y_j;\theta_h^{(k)})} \end{align}$ nel caso di due gaussiani (pagina 82):

τ_{i} (y_{j}; Ψ) = \frac{π_{i} ϕ (y_{j}; μ_{i}, Σ_{i})}{\sum_{h = 1}^{g} π_{h} ϕ (y_{j}; μ_{h}, Σ_{h})}

$\tau_i(y_j;\Psi) = \frac{\pi_i \phi(y_j;\mu_i,\Sigma_i)}{\sum_{h=1}^g \pi_h\phi(y_j; \mu_h,\Sigma_h)}$ Ilpassaggio M ora è la massimizzazione di Q (pagina 49):

Q (Ψ; Ψ^{(k)}) = \sum_{i = 1}^{g} \sum_{j = 1}^{n} τ_{i} (y_{j}; Ψ^{(k)}) {\log π_{i} + \log f_{i} (y_{j}; θ_{i})} .

$Q(\Psi;\Psi^{(k)}) = \sum_{i=1}^g\sum_{j=1}^n\tau_i(y_j;\Psi^{(k)})\{\log \pi_i + \log f_i(y_j;\theta_i)\}.$ Questo porta a (nel caso di due gaussiani) (pagina 82):

\begin{aligned} μ_{i}^{(k + 1)} & = \frac{\sum_{j = 1}^{n} τ_{i j}^{(k)} y_{j}}{\sum_{j = 1}^{n} τ_{i j}^{(k)}} \\ Σ_{i}^{(k + 1)} & = \frac{\sum_{j = 1}^{n} τ_{i j}^{(k)} (y_{j} - μ_{i}^{(k + 1)}) (y_{j} - μ_{i}^{(k + 1)})^{T}}{\sum_{j = 1}^{n} τ_{i j}^{(k)}} \end{aligned}

$\begin{align} \mu_i^{(k+1)} &= \frac{\sum_{j=1}^n \tau_{ij}^{(k)}y_j}{\sum_{j=1}^n \tau_{ij}^{(k)}} \\[8pt] \Sigma_i^{(k+1)} &= \frac{\sum_{j=1}^n \tau_{ij}^{(k)}(y_j - \mu_i^{(k+1)})(y_j - \mu_i^{(k+1)})^T}{\sum_{j=1}^n \tau_{ij}^{(k)}} \end{align}$ e lo sappiamo (p. 50)

π_{i}^{(k + 1)} = \frac{\sum_{j = 1}^{n} τ_{i} (y_{j}; Ψ^{(k)})}{n} (i = 1, \dots, g) .

$\pi_i^{(k+1)} = \frac{\sum_{j=1}^n \tau_i(y_j;\Psi^{(k)})}{n}\qquad (i = 1, \ldots, g).$ Ripetiamo i passaggi E, M fino a quando è piccolo.

L (Ψ^{(k + 1)}) - L (Ψ^{(k)})

$L(\Psi^{(k+1)})-L(\Psi^{(k)})$

Ho provato a scrivere un codice R (i dati sono disponibili qui ).

# EM algorithm manually
# dat is the data

# initial values
pi1       <-  0.5
pi2       <-  0.5
mu1       <- -0.01
mu2       <-  0.01
sigma1    <-  0.01
sigma2    <-  0.02
loglik[1] <-  0
loglik[2] <- sum(pi1*(log(pi1) + log(dnorm(dat,mu1,sigma1)))) + 
             sum(pi2*(log(pi2) + log(dnorm(dat,mu2,sigma2))))

tau1 <- 0
tau2 <- 0
k    <- 1

# loop
while(abs(loglik[k+1]-loglik[k]) >= 0.00001) {

  # E step
  tau1 <- pi1*dnorm(dat,mean=mu1,sd=sigma1)/(pi1*dnorm(x,mean=mu1,sd=sigma1) + 
          pi2*dnorm(dat,mean=mu2,sd=sigma2))
  tau2 <- pi2*dnorm(dat,mean=mu2,sd=sigma2)/(pi1*dnorm(x,mean=mu1,sd=sigma1) + 
          pi2*dnorm(dat,mean=mu2,sd=sigma2))

  # M step
  pi1 <- sum(tau1)/length(dat)
  pi2 <- sum(tau2)/length(dat)

  mu1 <- sum(tau1*x)/sum(tau1)
  mu2 <- sum(tau2*x)/sum(tau2)

  sigma1 <- sum(tau1*(x-mu1)^2)/sum(tau1)
  sigma2 <- sum(tau2*(x-mu2)^2)/sum(tau2)

  loglik[k] <- sum(tau1*(log(pi1) + log(dnorm(x,mu1,sigma1)))) + 
               sum(tau2*(log(pi2) + log(dnorm(x,mu2,sigma2))))
  k         <- k+1
}


# compare
library(mixtools)
gm <- normalmixEM(x, k=2, lambda=c(0.5,0.5), mu=c(-0.01,0.01), sigma=c(0.01,0.02))
gm$lambda
gm$mu
gm$sigma

gm$loglik

L'algoritmo non funziona, poiché alcune osservazioni hanno la probabilità di zero e il registro di ciò è -Inf. Dov'è il mio errore?

r expectation-maximization gaussian-mixture

— Stat Tistician
fonte

Il problema non è statistico, ma piuttosto numerico. È necessario aggiungere contingenze per probabilità inferiori alla precisione della macchina nel codice.

— JohnRos,

perché non provi a perfezionare la funzione mixtools con un esempio molto semplice che può essere verificato a mano, diciamo prima solo cinque o dieci valori e due timeseries. quindi, se trovi che funziona lì, generalizza il tuo codice e verifica ad ogni passaggio.

Risposte:

Hai diversi problemi nel codice sorgente:

Come ha sottolineato @Pat, non dovresti usare log (dnorm ()) poiché questo valore può facilmente andare all'infinito. È necessario utilizzare logmvdnorm
Quando usi la somma , fai attenzione a rimuovere valori infiniti o mancanti
La variabile looping k è errata, dovresti aggiornare loglik [k + 1] ma aggiorni loglik [k]
I valori iniziali per il metodo e i mixtools sono diversi. Stai usando nel tuo metodo, ma stai usando per mixtools (cioè deviazione standard, dal manuale di mixtools). $\Sigma$ $\sigma$
I tuoi dati non sembrano un misto di normale (controlla l'istogramma che ho tracciato alla fine). E un componente della miscela ha sd molto piccolo, quindi ho arbitrariamente aggiunto una riga per impostare e in modo che siano uguali per alcuni campioni estremi. Li aggiungo solo per assicurarmi che il codice funzioni. $\tau_1$ $\tau_2$

Suggerisco anche di inserire codici completi (ad es. Come si inizializza loglik []) nel codice sorgente e di indentare il codice per facilitarne la lettura.

Dopotutto, grazie per aver introdotto il pacchetto mixtools e ho intenzione di usarli nella mia ricerca futura.

Ho anche messo il mio codice di lavoro come riferimento:

# EM algorithm manually
# dat is the data
setwd("~/Downloads/")
load("datem.Rdata")
x <- dat

# initial values
pi1<-0.5
pi2<-0.5
mu1<--0.01
mu2<-0.01
sigma1<-sqrt(0.01)
sigma2<-sqrt(0.02)
loglik<- rep(NA, 1000)
loglik[1]<-0
loglik[2]<-mysum(pi1*(log(pi1)+log(dnorm(dat,mu1,sigma1))))+mysum(pi2*(log(pi2)+log(dnorm(dat,mu2,sigma2))))

mysum <- function(x) {
  sum(x[is.finite(x)])
}
logdnorm <- function(x, mu, sigma) {
  mysum(sapply(x, function(x) {logdmvnorm(x, mu, sigma)}))  
}
tau1<-0
tau2<-0
#k<-1
k<-2

# loop
while(abs(loglik[k]-loglik[k-1]) >= 0.00001) {
  # E step
  tau1<-pi1*dnorm(dat,mean=mu1,sd=sigma1)/(pi1*dnorm(x,mean=mu1,sd=sigma1)+pi2*dnorm(dat,mean=mu2,sd=sigma2))
  tau2<-pi2*dnorm(dat,mean=mu2,sd=sigma2)/(pi1*dnorm(x,mean=mu1,sd=sigma1)+pi2*dnorm(dat,mean=mu2,sd=sigma2))
  tau1[is.na(tau1)] <- 0.5
  tau2[is.na(tau2)] <- 0.5

  # M step
  pi1<-mysum(tau1)/length(dat)
  pi2<-mysum(tau2)/length(dat)

  mu1<-mysum(tau1*x)/mysum(tau1)
  mu2<-mysum(tau2*x)/mysum(tau2)

  sigma1<-mysum(tau1*(x-mu1)^2)/mysum(tau1)
  sigma2<-mysum(tau2*(x-mu2)^2)/mysum(tau2)

  #  loglik[k]<-sum(tau1*(log(pi1)+log(dnorm(x,mu1,sigma1))))+sum(tau2*(log(pi2)+log(dnorm(x,mu2,sigma2))))
  loglik[k+1]<-mysum(tau1*(log(pi1)+logdnorm(x,mu1,sigma1)))+mysum(tau2*(log(pi2)+logdnorm(x,mu2,sigma2)))
  k<-k+1
}

# compare
library(mixtools)
gm<-normalmixEM(x,k=2,lambda=c(0.5,0.5),mu=c(-0.01,0.01),sigma=c(0.01,0.02))
gm$lambda
	gm$mu
gm$sigma

gm$loglik

Historgram Istogramma

— zhanxw
fonte

@zahnxw grazie per la tua risposta, quindi significa che il mio codice è sbagliato? Quindi l'idea di base non funziona?

— Stat Tistician,

"Suggerisco anche di inserire codici completi (ad es. Come inizializzare loglik []) nel codice sorgente e di indentare il codice per facilitarne la lettura." Bene, questo è il mio codice? il loglik [] è definito come l'ho dichiarato nel codice che ho pubblicato?

— Stat Tistician,

@StatTistician l'idea è corretta, ma l'implementazione ha dei difetti. Ad esempio, non hai considerato il flusso insufficiente. Inoltre, la variabile looping k è confusa, devi prima impostare loglik [1] e loglik [2], dopo aver inserito il ciclo while, imposti di nuovo loglik [1]. Questo non è il modo naturale di fare. Il mio suggerimento sull'inizializzazione di loglik [] significa codice:, loklik <- rep(NA, 100)che pre-allocerà loglik [1], loglik [2] ... loglik [100]. Sollevo questa domanda perché nel tuo codice originale non ho trovato la delcaration di loglik, forse il codice viene troncato durante l'incollaggio?

— zhanxw,

Come ho pubblicato di seguito: Grazie per il tuo aiuto, ma sto abbandonando questo argomento, poiché è troppo avanzato per me.

— Stat Tistician,

Esiste ora un modo per determinare quale parte dei dati appartiene a quale miscela?

— Cardinale

Continuo a ricevere un errore quando provo ad aprire il tuo file .rar, ma potrebbe essere solo io a fare qualcosa di stupido.

$f(y;\theta)$ $\exp(-0.5(y-\mu)^2/\sigma^2)$ $\mu$ $y$ $\tau$

Se questo è il problema, ci sono alcune possibili soluzioni:

$\tau$

$\tau \log(f(y|\theta))$

valutare

$\log \left( f(y|\theta)^\tau \right)$

$f(y|\theta)$ $\tau$ $\approx 0$

$0 \log (0) = 0 (-Inf) = NaN$

ma con tau commosso si ottiene

$\log \left( 0^0\right) = \log(1) = 0$

$0^0 = 1$

Un'altra soluzione è quella di espandere le cose all'interno del logaritmo. Supponendo che tu stia utilizzando logaritmi naturali:

$\tau \log(f(y|\theta))$

$= \tau \log(\exp(-0.5(y-\mu)^2/\sigma^2)/\sqrt{2\pi\sigma^2})$

$= -0.5\tau \log(2 \pi\sigma^2) - 0.5 \tau \frac{(y-\mu)^2}{\sigma^2}$

Matematicamente lo stesso, ma dovrebbe essere più resistente agli errori in virgola mobile poiché hai evitato di calcolare una grande potenza negativa. Ciò significa che non è più possibile utilizzare la funzione di valutazione delle norme incorporata, ma se questo non è un problema questa è probabilmente la risposta migliore. Ad esempio, supponiamo di avere la situazione in cui

$-0.5\frac{(y-\mu)^2}{\sigma^2} = -0.5*40^2 = -800$

$\log(\exp(-800)) = \log(0) = -Inf$

— colpetto
fonte

ad essere sincero: non sono abbastanza bravo per far funzionare questa cosa. Quello che mi interessava è: posso ottenere lo stesso risultato con il mio algoritmo della versione implementata del pacchetto mixtools. Ma dal mio punto di vista sembra chiedere la luna. Ma penso che tu abbia messo uno sforzo nella tua risposta, quindi lo accetterò! Grazie!

— Stat Tistician,