Come calcolare un livello di confidenza per una distribuzione di Poisson?


32

Vorrei sapere quanto posso essere fiducioso nel mio . Qualcuno sa come impostare i livelli di confidenza superiore e inferiore per una distribuzione di Poisson?λ

  • Osservazioni ( ) = 88n
  • Media campionaria ( ) = 47.18182λ

come sarebbe la fiducia del 95% per questo?


Puoi anche prendere in considerazione il bootstrap delle tue stime. Ecco un breve tutorial sul bootstrap.
Mark T Patterson,

Risposte:


27

Per Poisson, la media e la varianza sono entrambe . Se si desidera l'intervallo di confidenza attorno a lambda, è possibile calcolare l'errore standard come .λλ/n

L'intervallo di confidenza al 95 percento è .λ^±1.96λ^/n


26
Questo va bene quando è grande, poiché allora il Poisson è adeguatamente approssimato da una distribuzione normale. Per valori piccoli o maggiore confidenza, sono disponibili intervalli migliori. Vedi math.mcmaster.ca/peter/s743/poissonalpha.html per due di loro insieme a un'analisi della loro effettiva copertura. (Qui, l'intervallo "esatto" è (45.7575, 48.6392), l'intervallo "Pearson" è (45.7683, 48.639) e l'approssimazione normale dà (45.7467, 48.617): è un po 'troppo basso, ma abbastanza vicino, perchén λ = 4152nλnλ=4152
4152.

4
Per gli altri confusi come me: ecco una descrizione di da dove proviene 1.96.
mjibson,

2
Come hai calcolato l'intervallo esatto per questo problema dati le informazioni su quel sito Web fornite da Whuber? Non ho potuto seguirlo perché quel sito sembra indicare solo come procedere quando hai un campione. Forse non capisco qualcosa di semplice ma la mia distribuzione ha un valore molto più piccolo di lambda (n), quindi non posso usare l'approssimazione normale e non so come calcolare il valore esatto. Qualsiasi aiuto sarebbe molto apprezzato. Grazie!

Qui stanno usando la deviazione standard della media, giusto? Cioè SE = sig/sqrt(N) = sqrt(lam/N),? Ciò avrebbe senso dal momento che la deviazione standard dei singoli valori sigci dice della probabilità di estrarre campioni casuali dalla distribuzione di Poisson, mentre il SEmodo sopra definito ci dice della nostra fiducia lam, dato il numero di campioni che abbiamo usato per stimarlo.
AlexG

17

Questo documento discute 19 modi diversi per calcolare un intervallo di confidenza per la media di una distribuzione di Poisson.

http://www.ine.pt/revstat/pdf/rs120203.pdf


2
Nonostante la notifica della mod qui, mi piace questa risposta così com'è, perché sottolinea che c'è meno del consenso generale su come valutare un sistema misurato di Poisson.
Carl Witthoft,

7

Oltre alle risposte fornite da altri, un altro approccio a questo problema è raggiunto attraverso un approccio basato su modelli. L'approccio del teorema del limite centrale è sicuramente valido e le stime avviate offrono molta protezione da piccoli problemi e modalità errate di specificazione della modalità.

Per pura efficienza, è possibile ottenere un intervallo di confidenza migliore per utilizzando un approccio basato sul modello di regressione. Non c'è bisogno di passare attraverso le derivazioni, ma un semplice calcolo in R va così:λ

x <- rpois(100, 14)
exp(confint(glm(x ~ 1, family=poisson)))

Questa è una stima dell'intervallo non simmetrico, intendiamoci, poiché il parametro naturale del glisson di poisson è la velocità relativa del log! Questo è un vantaggio poiché si tende a inclinare i dati di conteggio verso destra.

L'approccio sopra ha una formula ed è:

exp(logλ^±1nλ^)

Questo intervallo di confidenza è "efficiente", nel senso che deriva dalla stima della massima verosimiglianza sulla scala dei parametri naturali (log) per i dati di Poisson e fornisce un intervallo di confidenza più stretto rispetto a quello basato sulla scala di conteggio pur mantenendo la copertura nominale del 95% .


+1 Penso che userei un aggettivo diverso dall'efficienza però (o essere più chiaro intendi efficienza computazionale o di codice golf). Il commento di Whuber indica una risorsa che fornisce intervalli esatti e l'approccio glm si basa anche su risultati asintotici. (È più generale, quindi mi piace raccomandare anche questo approccio.)
Andy W

A pensarci ancora un po ', l'esatta copertura a cui si collega (penso) è applicabile solo se si specifica senza guardare i dati. Guarda una simulazione veloce, la copertura calcolata in base al valore osservato (per nuove osservazioni) è molto più bassa. Simulazione rapida qui . μ
Andy W,

1
Qual è la tua autorità per quella formula? Possiamo avere una citazione?
pauljohn32

@AndyW: il tuo link non è valido per la simulazione rapida
pauljohn32

1
@ pauljohn32 controlla il testo di Casella Berger, specialmente sulla famiglia esponenziale, la frequenza dei tronchi è il parametro naturale.
AdamO,

5

Vista l'osservazione di una distribuzione di Poisson ,

  • il numero di eventi conteggiati è n.
  • la media ( ) e la varianza ( ) sono uguali.σ 2λσ2

Passo dopo passo,

  • La stima per la media èλ^=nλ
  • Supponendo che il numero di eventi sia abbastanza grande ( ), l' errore standard è la deviazione standard , che possiamo anche stimare,σn>20σ

stderr=σ=λn

Ora, l'intervallo di confidenza al 95% è,

I=λ^±1.96 stderr=n±1.96 n

[Modificato] Alcuni calcoli basati sui dati della domanda,

  • Supponendo che indicato nella domanda sia stato verificato esternamente o che ci sia stato fornito, vale a dire che si tratta di una buona informazione e non di una stima.λ

    Sto assumendo questo presupposto in quanto la domanda originale non fornisce alcun contesto sull'esperimento o su come i dati sono stati ottenuti (che è della massima importanza nella manipolazione dei dati statistici).

  • L'intervallo di confidenza al 95% è, per il caso particolare,

I=λ±1.96 stderr=λ±1.96 λ=47.18182±1.96 47.18182[33.72,60.64]

Pertanto, poiché la misurazione (n = 88 eventi) è al di fuori dell'intervallo di confidenza del 95%, concludiamo che,

  1. Il processo non segue un processo di Poisson o,

  2. Il ci è stato dato non è corretto.λ


Nota importante : la prima risposta accettata sopra è errata , poiché indica erroneamente che l'errore standard per un'osservazione di Poisson è . Questo è l'errore standard per un processo Sample Mean (Survey Sample).λ/n


1
Benvenuti nel sito! Ma @Travis "vorrebbe sapere quanto posso essere fiducioso nel mio ", quindi dovrebbe essere un intervallo di confidenza attorno alla media del campione. Inoltre, cosa intendi con , dato che sono rispettivamente 88 e 47? n λλnλ
Randel,

2
λλ

2
Credo che la risposta di jose.angel.jiminez sopra sia errata e derivi dalla lettura errata della domanda originale. Il poster originale recitava "Osservazioni (n) = 88" - questo era il numero di intervalli di tempo osservati, non il numero di eventi osservati complessivamente, o per intervallo. Il numero medio di eventi per intervallo, rispetto al campione di 88 intervalli di osservazione, è la lambda data dal poster originale. (Avrei incluso questo come commento al post di Jose, ma sono troppo nuovo sul sito per poter commentare.)
user44436

@ user44436 ha aggiunto una risposta che doveva essere un commento. Lo ripubblico come un commento in modo che tu possa vederlo e perché come una non risposta può essere rimosso: ------- Credo che la risposta di jose sopra sia errata e derivi dalla lettura errata della domanda originale. Il poster originale riportava Osservazioni (n) = 88 - questo era il numero di intervalli di tempo osservati, non il numero di eventi osservati complessivamente o per intervallo. Il numero medio di eventi per intervallo rispetto al campione di 88 intervalli di osservazione è la lambda data dal poster originale.
Mörre,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.