Misura di "devianza" per Poisson gonfiato a zero o binomiale negativo a gonfiamento zero?

La deviazione in scala, definita come D = 2 * (verosimiglianza logaritmica del modello saturo meno verosimiglianza logaritmica del modello montato), viene spesso utilizzata come misura della bontà di adattamento nei modelli GLM. La deviazione percentuale spiegata, definita come [D (modello nullo) - D (modello montato)] / D (modello nullo), viene talvolta utilizzata anche come analogo GLM al quadrato R della regressione lineare. A parte il fatto che le distribuzioni ZIP e ZINB non fanno parte della famiglia esponenziale di distribuzioni, ho difficoltà a capire perché la deviazione in scala e la deviazione in percentuale spiegate non sono utilizzate nella modellazione a inflazione zero. Qualcuno può far luce su questo o fornire riferimenti utili? Grazie in anticipo!

goodness-of-fit zero-inflation deviance

— aleanjeo
fonte

ottima domanda - vorrei saperlo anche

— io

La devianza è un concetto GLM, i modelli ZIP e ZINB non sono glm ma sono formulati come miscele finite di distribuzioni che sono GLM e quindi possono essere risolte facilmente tramite l'algoritmo EM.

Queste note descrivono la teoria della devianza in modo conciso. Se leggi quelle note vedrai la prova che il modello saturo per la regressione di Poisson ha probabilità logaritmica

ℓ (λ_{S}) = Σ_{io = 1, \forall y_{io} \neq 0}^{n} [y_{io} l o g (y_{io}) - y_{io} - l o g (y_{io}!)]

$\ell(\lambda_s)= \sum_{i=1, \forall y_i\neq 0}^n \left[ y_ilog(y_i)-y_i -log(y_i!)\right]$

che risultati dal plug-in stime . $y_i =\hat{\lambda}_i$

Procedo ora con la probabilità ZIP perché la matematica è più semplice, risultati simili valgono per lo ZINB. Sfortunatamente per lo ZIP, non esiste una relazione semplice come nel Poisson. I TH osservazioni log-verosimiglianza è $i$

ℓ_{io} (φ, λ) = Z_{io} l o g (φ + (1 - φ) e^{- λ}) + (1 - Z_{io}) [- λ + y_{io} l o g (λ) - l o g (y_{io}!)] .

$\ell_i(\phi, \lambda)=Z_ilog(\phi+(1-\phi)e^{-\lambda})+ (1-Z_i)\left[-\lambda +y_ilog(\lambda) -log(y_i!)\right].$

la non sono rispettati in modo da risolvere questo avresti bisogno di prendere derivate parziali WRT sia e , impostare le equazioni a 0 e poi risolvere per e . La difficoltà qui sono i valori, questi possono andare in un o in un e non è possibile senza osservare cui inserire la osservazioni in. Tuttavia, se conoscessimo la $Z_i$ $\lambda$ $\phi$ $\lambda$ $\phi$ $y_i=0$ $\hat{\lambda}$ $\hat{\phi}$ $Z_i$ $y_i=0$ $Z_i$ valore non avremmo bisogno di un modello ZIP perché non avremmo dati mancanti. I dati osservati corrispondono alla probabilità di "dati completi" nel formalismo EM.

Un approccio che potrebbe essere ragionevole è lavorare con l'aspettativa rispetto a della verosimiglianza completa dei dati, che rimuove e sostituisce con un'aspettativa, questo fa parte di ciò che il L'algoritmo EM calcola (il passaggio E) con gli aggiornamenti più recenti. Non sono a conoscenza di alcuna letteratura che abbia studiato questo approccio devianza. $Z_i$ $\mathbb{E}(\ell_i(\phi, \lambda))$ $Z_i$ $expected$

Inoltre, questa domanda è stata posta per prima, quindi ho risposto a questo post. Tuttavia, c'è un'altra domanda sullo stesso argomento con un bel commento di Gordon Smyth qui: devianza per il modello di poisson composto gonfiato a zero, dati continui (R) in cui ha menzionato la stessa risposta (questa è un'elaborazione di quel commento che avrei diciamo) più hanno menzionato nei commenti all'altro post un articolo che potresti voler leggere. (dichiarazione di non responsabilità, non ho letto il documento di riferimento)

— Lucas Roberts
fonte