Approssimazione normale alla distribuzione di Poisson


12

Qui in Wikipedia si dice:

Per valori sufficientemente grandi di , (diciamo λ> 1000 ), la distribuzione normale con media λ e varianza λ (deviazione standard \ sqrt {\ lambda} ) è un'approssimazione eccellente della distribuzione di Poisson. Se λ è maggiore di circa 10, la distribuzione normale è una buona approssimazione se viene eseguita una correzione di continuità appropriata, ovvero P (X ≤ x), dove (minuscola) x è un numero intero non negativo, viene sostituito da P (X ≤ x + 0,5).λλ>1000λλλλP(Xx),xP(Xx+0.5).

FPoisson(x;λ)Fnormal(x;μ=λ,σ2=λ)

Purtroppo questo non è citato. Voglio essere in grado di dimostrarlo / dimostrarlo con un certo rigore. Come si può effettivamente dire che la distribuzione normale è una buona approssimazione quando λ>1000 , come si quantifica questa approssimazione "eccellente", quali misure sono state utilizzate?

Il più lontano che ho con questo è qui in cui John parla dell'uso del teorema di Berry-Esseen e approssima l'errore nei due CDF. Da quello che posso vedere non prova alcun valore di λ1000 .


6
Non puoi provarlo senza definire "buono". (Puoi dimostrare un risultato asintotico, ma non puoi dichiararlo "buono" con una dimensione del campione specifica senza definire i tuoi criteri.) Puoi dimostrarne il comportamento con un esempio diretto (dal quale le persone possono vedere quanto è buono il "buono" è dalle loro stesse luci). Per i criteri tipici che le persone tendono ad usare, una correzione della continuità funziona bene per fintanto che non vai in profondità nella coda. λ>10
Glen_b

1
(Per essere più precisi, se il tuo criterio è un errore assoluto, puoi potenzialmente ottenere "buono" ovunque con campioni di piccole dimensioni come 10, ma la maggior parte delle persone si preoccupa di qualcosa di più vicino all'errore relativo)
Glen_b -Reinstate Monica

Risposte:


7

Supponiamo che sia Poisson con parametro e sia normale con media e varianza . Mi sembra che il confronto appropriato sia tra e . Qui per semplicità scrivo , cioè siamo interessati quando corrisponde a deviazioni standard dalla media.XλYλPr(X=n)Pr(Y[n12,n+12])n=λ+αλnα

Quindi ho tradito. Ho usato Mathematica. Quindi sia che sono asintotici a come . Ma la loro differenza è asintotica a Se lo traccia in funzione di , otterrai la stessa curva mostrata nella penultima figura in http://www.johndcook.com/blog/normal_approx_to_poisson/ .Pr(X=n)Pr(Y[n12,n+12])

12πλeα2/2
λ
α(α23)eα2/262πλ
α

Ecco i comandi che ho usato:

  n = lambda + alpha Sqrt[lambda];
  p1 = Exp[-lambda] lambda^n/n!;
  p2 = Integrate[1/Sqrt[2 Pi]/Sqrt[lambda] Exp[-(x-lambda)^2/2/lambda], {x, n-1/2, n+1/2}];
  Series[p1, {lambda, Infinity, 1}]
  Series[p2, {lambda, Infinity, 1}]

Inoltre, con un po 'di sperimentazione, mi sembra che una migliore approssimazione asintotica a sia . Quindi l'errore è che è circa volte più piccolo.Pr(X=n)Pr(Y[nα2/6,n+1α2/6])

(5α49α26)eα2/2722πλ3/2
λ

2

Glen_b ha ragione nel dire che "una buona misura" è una nozione molto soggettiva. Tuttavia, se si desidera verificare che la distribuzione di Poisson sia ragionevolmente normale, è possibile utilizzare un ipotetico test di Kolmorgov-Smirnov con l'ipotesi nulla pari a Il CDF proviene da una distribuzione , ipotizzando il tuo campione verrà da un poisson ( ). Dato che in realtà non stai testando un campione, ma una distribuzione contro un'altra, devi pensare attentamente alla dimensione del campione e al livello di significatività che assumi per questo test ipotetico (dal momento che non stiamo usando il test KS nel suo modo tipico). Questo è:H0:N(λ,λ)λ

  • Scegli una dimensione del campione ipotetica rappresentativa, n, e regola il livello di significatività del test su un valore tipico, ad es. 5%.

Ora, calcola il tasso di errore di tipo II per questo test assumendo che i tuoi dati provengano effettivamente da un poisson ( ). Il tuo grado di adattamento con una distribuzione normale sarà questo tasso di errore di tipo II, nel senso che campioni di dimensione n dalla tua particolare distribuzione di Poisson saranno, in media, accettati % delle volte da un test di normalità KS al tuo selezionato livello di significatività.λβ

Ad ogni modo, questo è solo un modo per ottenere un senso di "bontà di adattamento". Tuttavia, tutti si basano su alcune nozioni soggettive di "bontà" che dovrete definire da soli.


2

La derivazione dalla distribuzione binomiale potrebbe farti un'idea.

Abbiamo una variabile casuale binomiale;

p(x)=(nx)px(1p)nx

Questo può in alternativa essere calcolato ricorsivamente;

p(x)=(nx+1)px(1p)p(x1)

Se si mantiene la condizione iniziale;

p(0)=(1p)n

Ora supponiamo che sia grande e sia piccolo ma il successo medio di sia costante . Quindi possiamo fare quanto segue;npp(x)(np=λ)

P(X=i)=(ni)px(1p)nx

Usiamo che .p=λ/n

P(X=i)=n!(ni)!i!(λn)i(1λn)ni

Cambiamo alcune variabili e valutiamo;

P(X=i)=n(n1)(n2)(ni+1)niλii!(1λn)n(1λn)i

Dal calcolo sappiamo che . Sappiamo anche che perché sia ​​la parte superiore che quella inferiore sono polinomi di grado .limn(1+x/n)n=ex[n(n1)(n2)(ni+1)]/ni1i

Questo porta alla conclusione che come :n

P(X=i)eλλii!

È quindi possibile verificare che e tramite la definizione. Sappiamo che la distribuzione binomiale si avvicina al normale nelle condizioni del Teorema di De Moivre-Laplace fintanto che correggi per la continuità, motivo per cui è sostituito da .E(X)=λVar(X)=λP(Xx)P(Xx+0.5)

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.