In che modo la distribuzione di Poisson è diversa dalla distribuzione normale?


29

Ho generato un vettore che ha una distribuzione di Poisson, come segue:

x = rpois(1000,10)

Se faccio un istogramma usando hist(x), la distribuzione appare come una normale distribuzione a forma di campana. Tuttavia, un test di Kolmogorov-Smirnoff che utilizza ks.test(x, 'pnorm',10,3)afferma che la distribuzione è significativamente diversa da una distribuzione normale, a causa del pvalore molto piccolo .

Quindi la mia domanda è: in che modo la distribuzione di Poisson differisce da una distribuzione normale, quando l'istogramma sembra così simile a una distribuzione normale?


Inoltre (come componente aggiuntivo alla risposta di David): leggi questo ( stats.stackexchange.com/a/2498/603 ) e imposta la dimensione del tuo campione su 100 e vedi la differenza che fa.
user603

Risposte:


20
  1. Una distribuzione di Poisson è discreta mentre una distribuzione normale è continua e una variabile casuale di Poisson è sempre> = 0. Pertanto, un test di Kolgomorov-Smirnov sarà spesso in grado di dire la differenza.

  2. Quando la media di una distribuzione di Poisson è grande, diventa simile a una distribuzione normale. Tuttavia, rpois(1000, 10)non ha nemmeno guardare che simile a una distribuzione normale (si ferma breve a 0 e la coda destra è troppo lungo).

  3. Perché lo stai confrontando con ks.test(..., 'pnorm', 10, 3)piuttosto che ks.test(..., 'pnorm', 10, sqrt(10))? La differenza tra 3 e è piccolo ma farà di per sé una differenza nel confronto delle distribuzioni. Anche se la distribuzione fosse davvero normale, si otterrebbe una distribuzione di valore p anti-conservativo:10

    set.seed(1)
    
    hist(replicate(10000, ks.test(rnorm(1000, 10, sqrt(10)), 'pnorm', 10, 3)$p.value))
    

inserisci qui la descrizione dell'immagine


3
Spesso le persone vedranno qualcosa di vagamente simmetrico e supporranno che appaia "normale". Sospetto che ciò che ha visto @Ross.
Fraijo,

2
Si noti che il test KS generalmente presuppone distribuzioni continue, quindi fare affidamento sul valore p riportato in questo caso può (anche) essere alquanto sospetto.
cardinale il

1
Vero: l'esecuzione hist(replicate(1000, ks.test(rpois(1000, 10), rpois(1000, 10))$p.value))dimostra che un test che confronta due identiche distribuzioni di Poisson sarebbe troppo conservativo.
David Robinson,


17

Ecco un modo molto più semplice per capirlo:

Puoi vedere la distribuzione binomiale come la "madre" della maggior parte delle distribuzioni. La distribuzione normale è solo un'approssimazione della distribuzione binomiale quando n diventa abbastanza grande. In effetti, Abraham de Moivre ha scoperto essenzialmente la distribuzione normale mentre cercava di approssimare la distribuzione binomiale perché va rapidamente fuori controllo per calcolare la distribuzione binomiale man mano che cresce, specialmente quando non si hanno computer ( riferimento ).

La distribuzione di Poisson è anche solo un'altra approssimazione della distribuzione binomiale ma tiene molto meglio della distribuzione normale quando n è grande e p è piccola, o più precisamente quando la media è approssimativamente uguale alla varianza (ricordate che per la distribuzione binomiale, media = np e var = np (1-p)) ( riferimento ). Perché questa situazione particolare è così importante? Apparentemente emerge molto nel mondo reale ed è per questo che abbiamo questa approssimazione "speciale". L'esempio seguente mostra scenari in cui l'approssimazione di Poisson funziona davvero alla grande.

Esempio

Abbiamo un datacenter di 100.000 computer. La probabilità che un determinato computer si guasti oggi è 0,001. Quindi in media np = 100 computer falliscono nel data center. Qual è la probabilità che oggi falliscano solo 50 computer?

Binomial: 1.208E-8
Poisson: 1.223E-8
Normal: 1.469E-7

In effetti, la qualità dell'approssimazione per la distribuzione normale scende mentre si procede nella coda della distribuzione, ma Poisson continua a tenere molto bene. Nell'esempio sopra, consideriamo qual è la probabilità che oggi solo 5 computer falliscano?

Binomial: 2.96E-36 
Poisson: 3.1E-36
Normal: 9.6E-22

Speriamo che questo ti dia una migliore comprensione intuitiva di queste 3 distribuzioni.


Che risposta straordinaria e fantastica! Molte grazie. :)
Bora M. Alper,

11

λnpnpn=λ/n

Uno sviluppo piuttosto lungo può essere trovato su questo blog .

XnBinomial(n,λ/n) k

P(Xn=k)=n!k!(nk)!(λn)k(1λn)nk=n!nk(nk)!1λkk!(1λ/n)neλ(1λ/n)k1.

nk

P(Xn=k)eλλkk!,
n(1λ/n)neλ

npdN(np,np(1p))nppn=λ/n0λn


(+1) Benvenuti nel sito. Ho apportato alcune modifiche; si prega di verificare che non ho introdotto alcun errore nel processo. Non ero del tutto sicuro di cosa fare dell'ultima frase dell'ultima frase. Alcuni chiarimenti aggiuntivi potrebbero essere utili.
cardinale il

1
Mi piace la direzione di questo, anche se potrebbero esserci dei modi per metterlo in relazione un po 'più da vicino alla domanda in corso rendendo più chiare le connessioni tra le tre distribuzioni. Ad esempio (a) Una variabile casuale binomiale (sequenza) agisce come un Poisson fintanto chenpnλpλ

1
nλpn1/2

Grazie. Vedo cosa stavi cercando di dire adesso. Sono generalmente d'accordo, con l'avvertenza che occorre prestare attenzione con la relazione tra i parametri, che sono considerati fissi e che variano con gli altri. :)
cardinale il

λ
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.