Come si usa l'algoritmo EM per calcolare gli MLE per una formulazione variabile latente di un modello di Poisson gonfiato zero?

Il modello di regressione di Poisson gonfiato a zero è definito per un campione per e presuppone inoltre che i parametri $(y_1,\ldots,y_n)$

Y_{i} = {\begin{cases} 0 & with probability p_{i} + (1 - p_{i}) e^{- λ_{i}} \\ k & with probability (1 - p_{i}) e^{- λ_{i}} λ_{i}^{k} / k! \end{cases}

$Y_i = \begin{cases} 0 & \text{with probability} \ p_i+(1-p_i)e^{-\lambda_i}\\ k & \text{with probability} \ (1-p_i)e^{-\lambda_i} \lambda_{i}^{k}/k! \end{cases}$

λ = (λ_{1}, \dots, λ_{n})

$\mathbf{\lambda} = (\lambda_1, \dots, \lambda_n)$ e soddisf

p = (p_{1}, \dots, p_{n})

$\textbf{p} = (p_1, \dots, p_n)$

\begin{aligned} \log (λ) & = B β \\ logit (p) & = \log (p / (1 - p)) = G γ . \end{aligned}

$\eqalign{ \log(\mathbf{\lambda}) &= \textbf{B} \beta \\ \text{logit}(\textbf{p}) &= \log(\textbf{p}/(1-\textbf{p})) = \textbf{G} \mathbf{\gamma}. }$

La probabilità logaritmica corrispondente del modello di regressione di Poisson gonfiato a zero è

\begin{aligned} L (γ, β; y) & = \sum_{y_{i} = 0} \log (e^{G_{i} γ} + \exp (- e^{B_{i} β})) + \sum_{y_{i} > 0} (y_{i} B_{i} β - e^{B_{i} β}) \\ - \sum_{i = 1}^{n} \log (1 + e^{G_{i} γ}) - \sum_{y_{i} > 0} \log (y_{i}!) \end{aligned}

$\eqalign{ L(\gamma,\mathbf{\beta}; \mathbf{y}) &= \sum_{y_i=0} \log(e^{G_i \gamma}+\exp(-e^{\textbf{B}_i \mathbf{\beta}})) +\sum_{y_i >0} (y_i \textbf{B}_i \mathbf{\beta}-e^{\textbf{B}_i \mathbf{\beta}})\\ &\quad -\sum_{i=1}^{n} \log(1+e^{G_{i} \gamma})-\sum_{y_i >0} \log(y_{i}!)}$

Qui, e sono le matrici di progettazione. Queste matrici potrebbero essere le stesse, a seconda delle caratteristiche che si desidera utilizzare per i due processi di generazione. Hanno lo stesso numero di righe, tuttavia. $\mathrm{B}$ $\mathrm{G}$

Supponendo che potremmo osservare quando proviene dallo stato zero perfetto e quando proviene dallo stato di Poisson la probabilità logaritmica sarebbe $Z_i = 1$ $Y_i$ $Z_i = 0$ $Y_i$

L (γ, β; y, z) = \sum_{i = 1}^{n} \log (f (z_{i} | γ)) + \sum_{i = 1}^{n} \log (f (y_{i} | z_{i}, β))

$L(\gamma,\mathbf{\beta}; \mathbf{y}, \mathbf{z}) = \sum_{i=1}^{n} \log(f(z_i|\mathbf{\gamma}))+\sum_{i=1}^{n} \log(f(y_i|z_i, \mathbf{\beta}))$

= \sum_{i = 1}^{n} z_{i} (G_{i} γ - \log (1 + e^{G_{i} γ})) + - \sum_{i = 1}^{n} (1 - z_{i}) \log (1 + e^{G_{i} γ}) + \sum_{i = 1}^{n} (1 - z_{i}) [y_{i} B_{i} β - e^{B_{i} β} - \log (y_{i}!)]

$= \sum_{i=1}^{n} z_{i} (\textbf{G}_i \gamma-\log(1+e^{G_{i} \gamma}))+ -\sum_{i=1}^{n} (1-z_{i})\log(1+e^{G_{i} \gamma})+ \sum_{i=1}^{n} (1-z_i)[y_{i} \textbf{B}_i \beta-e^{\textbf{B}_i \beta} - \log(y_{i}!)]$ I primi due termini sono la perdita in una regressione logistica per separare da . Il secondo termine è una regressione ai punti generati dal processo di Poisson.

z_{i} = 0

$z_i=0$

z_{i} = 1

$z_i=1$

Ma le variabili latenti non sono osservabili? Lo scopo è massimizzare la prima verosimiglianza. Ma dobbiamo introdurre variabili latenti e ricavare una nuova verosimiglianza. Quindi, usando l'algoritmo EM, possiamo massimizzare la seconda verosimiglianza. Ma questo presuppone che sappiamo che o ? $Z_i = 0$ $Z_i = 1$

— Damien
fonte

Che cos'è ? Inoltre, gran parte di questa domanda sembra essere in gran parte tagliata e incollata da una domanda precedente e diversa da @Robby. Sei tu?

f

$f$

— Macro,

f

$f$

La radice della difficoltà che stai riscontrando sta nella frase:

Quindi, usando l'algoritmo EM, possiamo massimizzare la seconda verosimiglianza.

$z_i$

$k^{th}$ $z_i$ $(k-1)^{th}$

$\lambda$ $p$

# Generate data
# Lambda = 1,  p(zero) = 0.1
x <- rpois(10000,1)
x[1:1000] <- 0

# Sufficient statistic for the ZIP
sum.x <- sum(x)

# (Poor) starting values for parameter estimates
phat <- 0.5
lhat <- 2.0

zhat <- rep(0,length(x))
for (i in 1:100) {
  # zhat[x>0] <- 0 always, so no need to make the assignment at every iteration
  zhat[x==0] <- phat/(phat +  (1-phat)*exp(-lhat))

  lhat <- sum.x/sum(1-zhat) # in effect, removing E(# zeroes due to z=1)
  phat <- mean(zhat)   

  cat("Iteration: ",i, "  lhat: ",lhat, "  phat: ", phat,"\n")
}

Iteration:  1   lhat:  1.443948   phat:  0.3792712 
Iteration:  2   lhat:  1.300164   phat:  0.3106252 
Iteration:  3   lhat:  1.225007   phat:  0.268331 
...
Iteration:  99   lhat:  0.9883329   phat:  0.09311933 
Iteration:  100   lhat:  0.9883194   phat:  0.09310694

1-zhat $\beta$ $\lambda_i$

$\sum (\mathbb{E}z_i\log{p_i} + (1-\mathbb{E}z_i)\log{(1-p_i)})$

$\mathbf{G}$ $p_i$ $\mathbb{E}z_i = p_i/(p_i+(1-p_i)\exp{(-\lambda_i)})$

Se vuoi farlo per dati reali, al contrario della semplice comprensione dell'algoritmo, esistono già pacchetti R; ecco un esempio http://www.ats.ucla.edu/stat/r/dae/zipoisson.htm usando la pscllibreria.

EDIT: dovrei sottolineare che quello che stiamo facendo è massimizzare il valore atteso della verosimiglianza del log dei dati completi, NON massimizzare la verosimiglianza del log dei dati completi con i valori attesi dei dati mancanti / variabili latenti inserite. Come succede, se la probabilità del log di dati completi è lineare nei dati mancanti, poiché è qui, i due approcci sono gli stessi, ma per il resto non lo sono.

— jbowman
fonte

@Cokes, è necessario aggiungere queste informazioni come risposta supplementare, non modificare una risposta esistente. Questa modifica non avrebbe dovuto essere approvata.

— gung - Ripristina Monica