Come è possibile che Poisson GLM accetti numeri non interi?

Sono davvero sbalordito dal fatto che il Poisson GLM accetta numeri non interi! Guarda:

Dati (contenuto di data.txt):

1   2001    0.25  1
1   2002    0.5   1
1   2003    1     1
2   2001    0.25  1
2   2002    0.5   1
2   2003    1     1

Script R:

t        <- read.table("data.txt")
names(t) <- c('site', 'year', 'count', 'weight')
tm       <- glm(count ~ 0 + as.factor(site) + as.factor(year), data = t, 
                family = "quasipoisson")  # also works with family="poisson"
years    <- 2001:2003
plot(years, exp(c(0, tail(coef(tm), length(years)-1))), type = "l")

L'indice dell'anno risultante è "atteso", ovvero 1-2-4in anni 2001-2003.

Ma come è possibile che Poisson GLM prenda numeri non interi? La distribuzione di Poisson è sempre stata di soli numeri interi!

r generalized-linear-model poisson-distribution poisson-regression

— Curioso
fonte

Potresti chiarire cosa vuoi sapere esattamente? In che modo l'algoritmo di adattamento gestisce i non numeri interi? O perché R non controlla se la risposta è un numero intero? O se qualcosa non va nel risultato quando vengono forniti numeri non interi?

— Momo,

@Momo, sì, tutte queste domande sono interessanti!

— Curioso

Modifica la tua domanda per riflettere ciò. È più probabile che tu ottenga una buona risposta in questo modo.

— Momo,

Non che questo sia davvero importante, poiché è vero anche per family="poisson", ma nota che il tuo esempio non è un Poisson GLM, poiché stai usando la quasipoissonfamiglia, che dipende comunque solo dalla relazione tra media e varianza, quindi in questo caso, non dovrebbe esserci sorpresa nel prendere numeri non interi.

— Aaron - Ripristina Monica il

Ecco alcuni riferimenti sul perché questo potrebbe avere senso.

— Dimitriy V. Masterov,

Risposte:

Naturalmente hai ragione sul fatto che la distribuzione di Poisson è tecnicamente definita solo per numeri interi. Tuttavia, la modellistica statistica è l'arte di buone approssimazioni (" tutti i modelli sono sbagliati "), e ci sono momenti in cui ha senso trattare dati non interi come se fossero [approssimativamente] Poisson.

Ad esempio, se invii due osservatori per registrare gli stessi dati di conteggio, può accadere che i due osservatori non concordino sempre sul conteggio: uno potrebbe dire che qualcosa è successo 3 volte mentre l'altro ha detto che è successo 4 volte. È bello quindi avere l'opzione di usare 3.5 quando si adattano i coefficienti di Poisson, invece di dover scegliere tra 3 e 4.

Computazionalmente, il fattoriale nel Poisson potrebbe rendere difficile lavorare con numeri non interi, ma esiste una generalizzazione continua del fattoriale. Inoltre, eseguire la stima della massima verosimiglianza per Poisson non implica nemmeno la funzione fattoriale, una volta semplificata l'espressione .

— zkurtz
fonte

$y$ $\renewcommand{\vec}[1]{\boldsymbol{#1}}\vec{x}$

E Y_{i} = \exp β^{T} x_{i}

$\operatorname{E}Y_i=\exp{\vec\beta^{\mathrm{T}}\vec{x}_i}$

Var Y_{i} = E Y_{i}

$\operatorname{Var}Y_i=\operatorname{E}Y_i$

β

$\vec\beta$

\sum_{i}^{n} x_{i} (y_{i} - \exp β^{T} x_{i}) = 0

$\sum_i^n{\vec{x}_i\left(y_i-\exp{\vec\beta^{\mathrm{T}}\vec{x}_i}\right)}=0$ Naturalmente la coerenza non implica la validità di alcun test o intervallo di confidenza; la probabilità non è stata specificata.

Ciò segue l'approccio del metodo dei momenti che abbiamo imparato a scuola e porta a quello delle equazioni di stima generalizzate .

@ Aaron ha sottolineato che stai effettivamente utilizzando un adattamento quasi-Poisson nel tuo codice. Ciò significa che la varianza è proporzionale alla media

Var Y_{i} = ϕ E Y_{i}

$\operatorname{Var}Y_i=\phi\operatorname{E}Y_i$

$\phi$

— Scortchi - Ripristina Monica
fonte