Regressione di Poisson con dati di grandi dimensioni: è sbagliato cambiare l'unità di misura?


17

A causa del fattoriale in una distribuzione di poisson, diventa poco pratico stimare i modelli di poisson (ad esempio, usando la massima verosimiglianza) quando le osservazioni sono grandi. Quindi, per esempio, se sto provando a stimare un modello per spiegare il numero di suicidi in un determinato anno (sono disponibili solo dati annuali) e dire che ci sono migliaia di suicidi ogni anno, è sbagliato esprimere i suicidi in centinaia , quindi 2998 sarebbe 29,98 ~ = 30? In altre parole, è sbagliato cambiare l'unità di misura per rendere gestibili i dati?

Risposte:


15

Quando hai a che fare con una distribuzione di Poisson con grandi valori di \ lambda (il suo parametro), è comune usare una normale approssimazione alla distribuzione di Poisson.

Come menziona questo sito , va bene usare l'approssimazione normale quando \ lambda supera i 20 e l'approssimazione migliora quando \ lambda diventa ancora più alto.

La distribuzione di Poisson è definita solo nello spazio degli stati costituito da numeri interi non negativi, quindi il riscalamento e l'arrotondamento introdurranno cose strane nei tuoi dati.

Usando il normale ca. per grandi statistiche di Poisson è MOLTO comune.


6

Nel caso di Poisson è un male, poiché i conteggi sono conteggi - la loro unità è un'unità. D'altra parte, se dovessi usare un software avanzato come R, le sue funzioni di gestione di Poisson saranno a conoscenza di numeri così grandi e utilizzerebbero alcuni trucchi numerici per gestirli.

Ovviamente concordo sul fatto che la normale approssimazione è un altro buon approccio.


3

La maggior parte dei pacchetti statistici ha una funzione per calcolare direttamente il logaritmo naturale del fattoriale (ad esempio la funzione lfactorial () in R, la funzione lnfactorial () in Stata). Ciò consente di includere il termine costante nella probabilità logaritmica, se lo si desidera.


Inoltre, n!= Gamma(n+1)per n> = 0. Quindi prova a cercare una funzione chiamata Gammase hai bisogno di calcolare il fattoriale (o registra Gamma se stai calcolando la probabilità di log)
Andre Holzner

3

Temo che non puoi farlo. Come afferma @Baltimark, con la grande lambda la distribuzione sarà di forma più normale (simmetrica) e con il ridimensionamento non sarà più una distrazione di poisson. Prova il seguente codice in R:

poi1 = rpois(100000, lambda = 5)  # poisson
poi2 = rpois(100000, lambda = 100)/20 # scaled-down poisson
poi2_dens = density(poi2)

hist(poi1, breaks = 0:30, freq = F, ylim = range(poi2_dens$y))
lines(poi2_dens, col = "red")

Il risultato è sotto:

inserisci qui la descrizione dell'immagine

Potete vedere che il poisson ridimensionato (linea rossa) è completamente diverso dalla distribuzione del poisson.


1

Puoi semplicemente ignorare il 'fattoriale' quando usi la massima verosimiglianza. Ecco il ragionamento per il tuo esempio di suicidio. Permettere:

λ: Sii il numero atteso di suicidi all'anno

k i : indica il numero di suicidi nell'anno i.

Quindi massimizzeresti la verosimiglianza come:

LL = ∑ (k i log (λ) - λ - k i !)

Massimizzare quanto sopra equivale a massimizzare quanto segue come k i ! è una costante:

LL ' = ∑ (k i log (λ) - λ)

Potrebbe spiegare perché il fattoriale è un problema? Mi sto perdendo qualcosa?


Non ti manca qualcosa se tutto ciò che stai cercando di fare è stimare il parametro da una serie di osservazioni. Questa era sicuramente l'idea principale della domanda del PO. Tuttavia, stava anche chiedendo in generale (se non rigorosamente) "come stimare i modelli di poisson". Forse vuole conoscere il valore del pdf in un punto specifico. In tal caso, il normale ca. probabilmente sarà meglio che ridimensionare il parametro e le osservazioni di 100, o qualsiasi altra cosa, se le osservazioni sono abbastanza grandi da rendere impraticabile il calcolo fattoriale.
Baltimark,

1
@Srikant, hai ragione, per stimare i parametri fattoriali non è un problema, ma in generale vorrai il valore della probabilità per un dato modello e dovresti usare il fattoriale per quello. Inoltre, per il test delle ipotesi (ad es. Test del rapporto di verosimiglianza) è necessario il valore della verosimiglianza.
Vivi,

@Baltimark: sì, voglio sapere in generale, se è valido cambiare l'unità di misura di Poisson. Mi è stata posta questa domanda e non sapevo cosa dire.
Vivi,

@Vivi: non sono sicuro del motivo per cui vorresti calcolare la probabilità con k_i! inclusa come nella maggior parte delle applicazioni (ad es. test del rapporto di verosimiglianza, stima bayesiana) la costante non avrà importanza. In ogni caso, non credo che tu possa ridimensionare come hai suggerito. In caso contrario, aggiornerò la mia risposta.

@Srikant, vedo il tuo punto, ma alcuni software (ad esempio le Eviews) lo includono per impostazione predefinita, e numeri grandi sono un problema che ti piace o no. Immagino che stavo davvero cercando una spiegazione del perché puoi o non puoi farlo piuttosto che aggirarlo, ma la discussione è stata comunque interessante e istruttiva :)
Vivi,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.