Modellazione di una distribuzione di Poisson con sovraispersione


15

Ho un set di dati che mi aspetto di seguire una distribuzione di Poisson, ma è sovradisperso di circa 3 volte. Al momento, sto modellando questa sovraispersione usando qualcosa come il seguente codice in R.

## assuming a median value of 1500
med = 1500
rawdist = rpois(1000000,med)
oDdist = rawDist + ((rawDist-med)*3)

Visivamente, questo sembra adattarsi molto bene ai miei dati empirici. Se sono soddisfatto dell'adattamento, c'è qualche motivo per cui dovrei fare qualcosa di più complesso, come usare una distribuzione binomiale negativa, come descritto qui ? (In tal caso, qualsiasi puntatore o collegamento in tal senso sarebbe molto apprezzato).

Oh, e sono consapevole che questo crea una distribuzione leggermente frastagliata (a causa della moltiplicazione per tre), ma ciò non dovrebbe importare per la mia applicazione.


Aggiornamento: per chiunque altro cerchi e trovi questa domanda, ecco una semplice funzione R per modellare un poisson sovradisperso usando una distribuzione binomiale negativa. Impostare d sul rapporto media / varianza desiderato:

rpois.od<-function (n, lambda,d=1) {
  if (d==1)
    rpois(n, lambda)
  else
     rnbinom(n, size=(lambda/(d-1)), mu=lambda)
}

(tramite la mailing list R: https://stat.ethz.ch/pipermail/r-help/2002-June/022425.html )

Risposte:


11

per il poisson sovradisperso, utilizzare il binomio negativo, che consente di parametrizzare la varianza in funzione della media con precisione. rnbinom (), ecc. in R.


1
Perché binomio negativo e non un modello misto con un effetto casuale a livello di osservazione? Questa non è una domanda retorica. Questo è un "Non capisco quale dovrei preferire". domanda. Inoltre, se avessi una situazione di misure ripetute? Quando i miei dati sono continui, userò un modello misto lineare generalizzato. La distribuzione gamma funziona spesso bene con dati biologici continui e il modello misto gestisce l'elemento misure ripetute. Ma cosa si può fare se si sono sovraispersi i dati del conteggio delle misure ripetute?
Bryan,

Uno dei motivi per cui il modello binomiale negativo rimparametrizzato è popolare con i dati di poisson sovra-dispersi è b / c che modella la varianza in funzione della media (come nel poisson) con un parametro di sovra dispersione per modellare la varianza "extra". Vedi pagina 487 qui per una formula veloce: worldscientific.com/doi/pdf/10.1142/9789813235533_0044 e la pagina di Wikipedia per una spiegazione sulla riparameterizzazione: en.wikipedia.org/wiki/Negative_binomial_distribution
Samir Rachid Zaim

4

Se il tuo valore medio per Poisson è 1500, allora sei molto vicino a una distribuzione normale; potresti provare a usarlo come approssimazione e quindi modellare separatamente media e varianza.


Questo è solo un esempio: potrebbe avere una mediana molto più piccola, nell'ordine di 200 (dipende da come partizionare i dati). Ciò escluderebbe l'uso di una distribuzione normale, giusto?
chrisamiller,

1
L'approssimazione normale alla distribuzione di Poisson è piuttosto solida, la differenza tra i CDF è limitata da qualcosa come 0.75 / sqrt (lambda), se ricordo bene. Non sarei troppo preoccupato di usare lambda = 200, ma se sei più avverso al rischio, allora sicuramente scegli il binomio negativo.
Rich
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.