Perché i residui di Pearson di una regressione binomiale negativa sono più piccoli di quelli di una regressione di Poisson?


9

Ho questi dati:

set.seed(1)
predictor  <- rnorm(20)
set.seed(1)
counts <- c(sample(1:1000, 20))
df <- data.frame(counts, predictor)

Ho eseguito una regressione di poisson

poisson_counts <- glm(counts ~ predictor, data = df, family = "poisson")

E una regressione binomiale negativa:

require(MASS)
nb_counts <- glm.nb(counts ~ predictor, data = df)

Quindi ho calcolato per le statistiche di dispersione per la regressione di Poisson:

sum(residuals(poisson_counts, type="pearson")^2)/df.residual(poisson_counts)

# [1] 145.4905

E la regressione binomiale negativa:

sum(residuals(nb_counts, type="pearson")^2)/df.residual(nb_counts)

# [1] 0.7650289

Qualcuno è in grado di spiegare, SENZA UTILIZZARE LE EQUAZIONI, perché la statistica di dispersione per la regressione binomiale negativa è considerevolmente più piccola della statistica di dispersione per la regressione di Poisson?

Risposte:


9

Questo è piuttosto semplice, ma il "senza usare equazioni" è un sostanziale handicap. Posso spiegarlo a parole, ma quelle parole rispecchieranno necessariamente le equazioni. Spero che sarà accettabile / comunque di qualche valore per te. (Le equazioni pertinenti non sono difficili.)

Esistono diversi tipi di residui. I residui grezzi sono semplicemente la differenza tra i valori di risposta osservati (nel tuo caso il counts) e i valori di risposta previsti del modello. I residui di Pearson li dividono per la deviazione standard (la radice quadrata della funzione varianza per la versione particolare del modello lineare generalizzato che si sta utilizzando).

La deviazione standard associata alla distribuzione di Poisson è inferiore a quella del binomio negativo . Pertanto, quando si divide per un denominatore più grande, il quoziente è più piccolo.

Inoltre, il binomio negativo è più appropriato al tuo caso, perché il tuo countssarà distribuito come uniforme nella popolazione. Cioè, la loro varianza non sarà uguale alla loro media.


4
Sebbene il PO richieda una spiegazione non matematica, sarebbe comunque bello vedere una giustificazione matematica (o qualche altrettanto rigorosa e chiara) per questa risposta. Leggendo la domanda la mia intuizione era che "Poiché il Poisson è un caso speciale (limitante) del NB e il NB ha più parametri, vi è una maggiore flessibilità nell'adattamento, quindi ovviamente qualsiasi misura ragionevole di residui non dovrebbe aumentare quando si sostituisce un Poisson GLM di un NB GLM. " Mi chiedo se tale intuizione fosse davvero corretta.
whuber

XPoisson(λ)E[X]=V[X]=λXNegBin(r,p)E[X]=pr/(1p)V[X]=pr/(1p)2p<1(1p)2<(1p)

3
λ^λr^p^

Le stime MLE sono coerenti. Il problema è che quando, come dice gung, "i conteggi saranno distribuiti come uniforme nella popolazione. Cioè, la loro varianza non sarà uguale alla loro media", non sarai mai in grado di ottenere una varianza di Poisson stimata maggiore di una stima Poisson significa, anche se le tue stime sono imparziali e coerenti. È un problema di errata specificazione.
Sergio,

5

iYiμiμi

yiμ^iμ^i

μ^iYiμiμi+μ2θ

yiμ~iμ~i+μ~2θ

μ~θμ^μ~iil modello predittore si avvicinerebbe e in generale l'aggiunta di un parametro dovrebbe adattarsi meglio a tutte le osservazioni, anche se non so come dimostrarlo rigorosamente. Tuttavia, le quantità di popolazione che stai stimando sono maggiori se il modello di Poisson regge, quindi non dovrebbe essere una sorpresa.]


1
μi

@whuber In questo caso, risulta che i valori montati per entrambi i modelli sono quasi identici. Dopotutto, il modello "vero" ha davvero un'intercettazione e fondamentalmente sta modellando la media poiché non vi è alcuna relazione tra x e Y nella simulazione.
jsk,

1
μi

1
μi

1
(yi|λ,vi,r)Poisson(λvi)(vi|λ,r)Gamma(r,r). Ora l'aggiunta di quellecontroiparametri permette il modello per rendere il mezzo previsto più vicino al valore osservato (quandoyi>λsi vedrebbevi(yi|λ,r)NB(r,λr+λ)viyi>λvi>1
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.