Passare dalla modellazione di un processo utilizzando una distribuzione di Poisson per utilizzare una distribuzione binomiale negativa?


24

Abbiamo un processo casuale che può-o-può-non si verificano più volte in un determinato periodo di tempo T . Abbiamo un feed di dati da un modello preesistente di questo processo, che fornisce la probabilità che si verifichino numerosi eventi nel periodo 0t<T . Questo modello esistente è vecchio e dobbiamo eseguire verifiche in tempo reale sui dati dei feed per errori di stima. Il vecchio modello che produce il feed di dati (che fornisce la probabilità che n si verifichino n eventi nel tempo rimanente t ) è distribuito approssimativamente in Poisson.

Quindi, per verificare anomalie / errori, lasciamo t il tempo rimanente e Xt il numero totale di eventi che si verificano nel tempo rimanente t . Il vecchio modello implica le stime P(Xtc) . Quindi sotto il nostro presupposto XtPoisson(λt) abbiamo:

P(Xtc)=eλk=0cλtkk!.
Per derivare il nostro tasso di eventi λt dall'output del vecchio modello (osservazioni yt ), utilizziamo un approccio dello spazio degli stati e modelliamo la relazione di stato come:
yt=λt+εt(εtN(0,Ht)).
Filtriamo le osservazioni dal vecchio modello, usando un modello di spazio di stato [decadimento a velocità costante] per l'evoluzione di λt per ottenere lo stato filtrato E(λt|Yt) e contrassegnare un'anomalia / errore nella frequenza dell'evento stimata da i dati del feed se E(λt|Yt)<yt .

Questo approccio funziona in modo fantastico nel rilevare errori nel conteggio degli eventi stimati per l'intero periodo T , ma non così bene se vogliamo fare lo stesso per un altro periodo 0t<σ dove σ<23T . Per ovviare a questo, abbiamo deciso che ora vogliamo passare a utilizzare la distribuzione binomiale negativa in modo da assumere ora XtNB(r,p) e abbiamo:

P(Xtc)=prk=0c(1p)k(k+r1r1),
dove il parametro λ è ora sostituito da r e p. Questo dovrebbe essere semplice da implementare, ma ho delle difficoltà con l'interpretazione e quindi ho alcune domande con cui vorrei che tu mi aiutassi:

1. Possiamo semplicemente impostare p=λ nella distribuzione binomiale negativa? In caso contrario, perché no?

2. Supponendo che possiamo impostare p=f(λ) dove f è una funzione, come possiamo impostare correttamente r (dobbiamo adattare r usando i set di dati passati)?

3. Is r dipende dal numero di eventi che ci aspettiamo che si verifichi nel corso di un dato processo?


Addendum all'estrazione di stime per r (e p ):

Sono consapevole che se avessimo effettivamente risolto questo problema e avessimo contato gli eventi per ciascun processo, avremmo potuto adottare lo stimatore della massima verosimiglianza per e . Ovviamente lo stimatore della massima verosimiglianza esiste solo per campioni per i quali la varianza del campione è maggiore della media del campione, ma in tal caso potremmo impostare la funzione di verosimiglianza per osservazioni distribuite identicamente indipendenti as: da cui possiamo scrivere la funzione di verosimiglianza come: p N k 1 , k 2 , , k N L ( r , p ) = N i = 1 P ( k i ; r , p ) , l ( r , p ) = N i = 1 ln ( Γ ( k i + r ) ) - N irpNk1,k2,,kN

L(r,p)=i=1NP(ki;r,p),
l(r,p)=i=1Nln(Γ(ki+r))i=1Nln(ki!)Nln(Γ(r))+i=1Nkiln(p)+Nrln(1p).
Per trovare il massimo prendiamo le derivate parziali rispetto a e e li uguale a zero: Impostazione e impostazione troviamo: rp
rl(r,p)=i=1Nψ(ki+r)Nψ(r)+Nln(1p),pl(r,p)=i=1Nki1pNr11p.
rl(r,p)=pl(r,p)=0p=i=1Nki(Nr+i=1Nki),
rl(r,p)=i=1Nψ(ki+r)Nψ(r)+Nln(rr+i=1NkiN)=0.
Questa equazione non può essere risolta per r in forma chiusa usando Newton o anche EM. Tuttavia, questo non è il caso in questa situazione. Anche se abbiamo potuto utilizzare i dati del passato per ottenere una statica e questo non è davvero alcun uso come per il nostro processo, abbiamo bisogno di adattare questi parametri nel tempo, come abbiamo fatto con Poisson. rp

1
Perché non collegare semplicemente i tuoi dati a un modello di regressione binomiale negativo o di Poisson?
StatStudent

1
Non mi sento che dovrebbe avere per essere utilizzato. Tenendo presente che Poisson è il caso limite del binomio negativo, dovrebbe esserci un modo per parametrizzare questo problema in un modo simile che ho fatto per Poisson. Inoltre, questo processo si verifica simultaneamente per migliaia di processi di differenza e nessuno ha lo stesso "tasso di eventi", il che significa che l'analisi di regressione per questi parametri dovrebbe essere eseguita ad ogni nuova osservazione per tutti i processi attivi. Questo non è fattibile. Grazie mille per aver
dedicato del

1
In termini di collegamento di Poisson a NB, se hai con variabile di dispersione nascosta modo che e . Ciò fornirà una distribuzione NB marginale dopo l'integrazione di . Puoi usare questo per aiutare. ( g t | r t ) G a m m a ( r t , r t ) E ( g t ) = 1 v a r ( g t ) = r -(Xt|λt,rt,gt)Pois(λtgt)(gt|rt)Gamma(rt,rt)E(gt)=1 gtvar(gt)=rt1gt
probabilityislogic

È di grande aiuto, ma sei in grado di approfondire un po 'di più e fornire alcuni dettagli espliciti? Grazie mille per il tuo tempo ...
MoonKnight

1
Che dire dell'utilizzo del binomio piuttosto che del binomio negativo? Potrebbe essere più facile da fare. Anscombe FJ. La trasformazione di Poisson, dati binomiali e binomiali negativi. Biometrika. 1948; 35: 246-54.
Carl,

Risposte:


1

La distribuzione binomiale negativa è molto simile al modello di probabilità binomiale. è applicabile quando le seguenti ipotesi (condizioni) sono valide 1) Qualsiasi esperimento viene eseguito nelle stesse condizioni fino a quando non viene raggiunto un numero fisso di successi, diciamo C, 2) Il risultato di ciascun esperimento può essere classificato in una delle due categorie , successo o fallimento 3) La probabilità P di successo è la stessa per ogni esperimento 40 Ogni esperimento è indipendente da tutti gli altri. La prima condizione è l'unico fattore di differenziazione chiave tra binomiale e binomiale negativo


0

La distribuzione di Poisson può essere una ragionevole approssimazione del binomio in determinate condizioni come 1) La probabilità di successo per ogni prova è molto piccola. P -> 0 2) np = m (diciamo) è finito La regola più spesso usata dagli statistici è che il poisson è una buona approssimazione del binomio quando n è uguale o maggiore di 20 e p è uguale o inferiore a 5 %

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.