Il modello di regressione di Poisson gonfiato a zero è definito per un campione per
Y i = { 0 con probabilità p i + ( 1 - p i ) e - λ i k con probabilità ( 1 - p i ) e - λ i λ k i / k !
e presuppone inoltre che i parametri( y1, ... , yn)
Yio= { 0Kcon probabilità p io+ ( 1 - pio) e- λiocon probabilità ( 1 - p io) e- λioλKio/ k!
λ =( λ1, ... , λn) e soddisf
p =( p1, ... , pn)
log( λ )logit ( p )= B β= log( p / ( 1 - p ) ) = G γ.
La probabilità logaritmica corrispondente del modello di regressione di Poisson gonfiato a zero è
L ( γ, β; y )= ∑yio= 0log( esolioγ+ exp( - eBioβ) ) + ∑yio> 0( yioBioβ- eBioβ)- ∑i = 1nlog( 1 + esolioγ) - ∑yio> 0log( yio! )
Qui, e sono le matrici di progettazione. Queste matrici potrebbero essere le stesse, a seconda delle caratteristiche che si desidera utilizzare per i due processi di generazione. Hanno lo stesso numero di righe, tuttavia.Bsol
Supponendo che potremmo osservare quando proviene dallo stato zero perfetto e quando proviene dallo stato di Poisson la probabilità logaritmica sarebbeZio= 1YioZio= 0Yio
L ( γ, β; y , z ) = ∑i = 1nlog( f( zio| γ) ) + ∑i = 1nlog( f( yio| zio, β) )
z i = 0 z i = 1
= ∑i = 1nzio( Gioγ- log( 1 + esolioγ) ) + - ∑i = 1n( 1 - zio) log( 1 + esolioγ) +Σi = 1n( 1 - zio) [ yioBioβ- eBioβ- log( yio! ) ]
I primi due termini sono la perdita in una regressione logistica per separare da . Il secondo termine è una regressione ai punti generati dal processo di Poisson.
zio= 0zio= 1
Ma le variabili latenti non sono osservabili? Lo scopo è massimizzare la prima verosimiglianza. Ma dobbiamo introdurre variabili latenti e ricavare una nuova verosimiglianza. Quindi, usando l'algoritmo EM, possiamo massimizzare la seconda verosimiglianza. Ma questo presuppone che sappiamo che o ?Z i = 1Zio= 0Zio= 1