Risposte:
Innanzitutto, il mio consiglio è di astenersi dal provare una distribuzione di Poisson così come è per i dati. Suggerisco che tu debba prima fare una teoria sul perché la distribuzione di Poisson dovrebbe adattarsi a un particolare set di dati o un fenomeno.
Una volta stabilito questo, la domanda successiva è se la distribuzione è omogenea o meno. Ciò significa se tutte le parti dei dati sono gestite dalla stessa distribuzione di Poisson o c'è una variazione in questo basata su alcuni aspetti come il tempo o lo spazio. Dopo esserti convinto di questi aspetti, prova i seguenti tre test:
cercali e li troverai facilmente in rete.
Ecco una sequenza di comandi R che possono essere utili. Sentiti libero di commentare o modificare in caso di errori.
set.seed(1)
x.poi<-rpois(n=200,lambda=2.5) # a vector of random variables from the Poisson distr.
hist(x.poi,main="Poisson distribution")
lambda.est <- mean(x.poi) ## estimate of parameter lambda
(tab.os<-table(x.poi)) ## table with empirical frequencies
freq.os<-vector()
for(i in 1: length(tab.os)) freq.os[i]<-tab.os[[i]] ## vector of emprical frequencies
freq.ex<-(dpois(0:max(x.poi),lambda=lambda.est)*200) ## vector of fitted (expected) frequencies
acc <- mean(abs(freq.os-trunc(freq.ex))) ## absolute goodness of fit index acc
acc/mean(freq.os)*100 ## relative (percent) goodness of fit index
h <- hist(x.poi ,breaks=length(tab.os))
xhist <- c(min(h$breaks),h$breaks)
yhist <- c(0,h$density,0)
xfit <- min(x.poi):max(x.poi)
yfit <- dpois(xfit,lambda=lambda.est)
plot(xhist,yhist,type="s",ylim=c(0,max(yhist,yfit)), main="Poison density and histogram")
lines(xfit,yfit, col="red")
#Perform the chi-square goodness of fit test
#In case of count data we can use goodfit() included in vcd package
library(vcd) ## loading vcd package
gf <- goodfit(x.poi,type= "poisson",method= "MinChisq")
summary(gf)
plot(gf,main="Count data vs Poisson distribution")
Suppongo che il modo più semplice sia solo fare un test di bontà di adattamento chi quadrato .
In effetti ecco una bella applet Java che farà proprio questo!
È possibile utilizzare la dispersione (rapporto di varianza rispetto alla media) come statistica di test, poiché Poisson dovrebbe fornire una dispersione di 1. Ecco un collegamento a come utilizzarlo come test modello.
Per una distribuzione di Poisson, la media è uguale alla varianza. Se la media del campione è molto diversa dalla varianza del campione, probabilmente non si hanno dati di Poisson. Il test di dispersione menzionato anche qui è una formalizzazione di tale nozione.
Se la tua varianza è molto più grande della tua media, come è comunemente il caso, potresti voler provare una distribuzione binomiale negativa in seguito.
È possibile disegnare una singola figura in cui le frequenze osservate e attese sono disegnate fianco a fianco. Se le distribuzioni sono molto diverse e hai anche un rapporto varianza-media maggiore di uno, allora un buon candidato è il binomio negativo. Leggi la sezione Distribuzioni di frequenza da The R Book
. Si occupa di un problema molto simile.
Penso che il punto principale sia quello che sidmaestro solleva ... la configurazione sperimentale o il meccanismo di generazione dei dati supporta la premessa che i dati potrebbero derivare da una distribuzione di Poisson.
Non sono un grande fan dei test per ipotesi distributive, dal momento che quei test in genere non sono molto utili. Ciò che mi sembra più utile è fare ipotesi distributive o di modello che siano flessibili e ragionevolmente robuste rispetto alle deviazioni dal modello, in genere a fini di inferenza. Nella mia esperienza, non è così comune vedere media = varianza, quindi spesso il modello binomiale negativo sembra più appropriato e include il Poisson come caso speciale.
Un altro punto importante per i test distributivi, se è quello che vuoi fare, è assicurarti che non vi siano strati coinvolti che renderebbero la tua distribuzione osservata una miscela di altre distribuzioni. Le singole distribuzioni specifiche dello strato potrebbero apparire Poisson, ma la miscela osservata potrebbe non esserlo. Una situazione analoga per regressione presuppone solo che la distribuzione condizionale di Y | X sia normalmente distribuita e non realmente la distribuzione di Y stessa.
Ancora un altro modo per testarlo è con un diagramma quantile quantile. In R, c'è qqplot. Questo traccia direttamente i tuoi valori contro una distribuzione normale con media e sd simili