Se non un Poisson, quale distribuzione è questa?


11

Ho un set di dati contenente il numero di azioni eseguite da singoli nel corso di 7 giorni. L'azione specifica non dovrebbe essere pertinente per questa domanda. Ecco alcune statistiche descrittive per il set di dati:

Range0772Mean18.2Variance2791Number of observations696

Ecco un istogramma dei dati: istogramma d'azione

A giudicare dalla fonte dei dati, ho pensato che si sarebbe adattato a una distribuzione di Poisson. Tuttavia, la media ≠ varianza e l'istogramma sono fortemente ponderati a sinistra. Inoltre, ho eseguito il goodfittest in R e ho ottenuto:

> gf <- goodfit(actions,type="poisson", method = "MinChisq") <br>
> summary(gf) <br>
Goodness-of-fit test for poisson distribution <br>
X^2                   df         P(> X^2) <br>
Pearson 2.937599e+248 771        0  

Anche il metodo Maximum Likelihood ha prodotto un valore p = 0. Supponendo che l'ipotesi nulla sia: i dati corrispondono a una distribuzione di Poisson (la documentazione non lo specifica), quindi il goodfittest dice che dovremmo rifiutare l'ipotesi nulla, quindi i dati non lo fanno abbina una distribuzione di Poisson.

Quell'analisi è corretta? In tal caso, quale distribuzione ritieni adatta a questi dati?

χ2


hai già provato il binomio negativo? Questo ti è stato d'aiuto?
Ric

@Richard, ho provato il binomio negativo e non mi andava bene. Grazie per i suggerimenti però. Dato che non riuscivo a capire che tipo di distribuzione fosse, ho deciso di ignorare la distribuzione e procedere con un test non parametrico, il test U di Mann-Whitney.
Chiamato il

mean/variance=1pp

Non penso che il concetto di processo a Bernoulli si applichi nel mio caso. Non esiste un concetto di successo o fallimento; i soggetti eseguono l'azione di interesse o non lo fanno. Non provano a fallire. Pertanto, l'idea di una probabilità di successo non ha senso. A meno che il processo non sia un'unità di tempo. Ma poi non c'è nulla che impedisca al soggetto di eseguire più azioni in quel periodo di tempo.
Chiamato il

lmabda

Risposte:


8

Se la varianza è maggiore della media, questo si chiama sovra-dispersione. Un modello naturale per questo è la distribuzione binomiale negativa. Questo può anche essere visto come una distribuzione di Poisson in cui il parametro lambda segue una distribuzione Gamma. Un primo e semplice passo potrebbe essere quello di adattare una distribuzione binomiale negativa.


5

Se i tuoi dati di conteggio grezzi non sembrano una distribuzione di Poisson, allora ti stai perdendo qualcosa. Forse il numero di azioni dipende dalla temperatura, quindi nei giorni caldi le persone fanno meno cose. Quindi la variazione di temperatura durante il periodo di studio influenzerebbe la distribuzione e la renderebbe non-Poisson.

Tuttavia, il numero di azioni ogni giorno potrebbe essere ancora Poisson con una media dipendente dalla temperatura. Se hai la temperatura ogni giorno, puoi fare un GLM, regredendo al numero di azioni come una variabile di Poisson, a seconda della temperatura. Se ciò si adatta bene, lavoro fatto.

Se non hai possibili variabili esplicative, allora tutto ciò che puoi dire è "sta succedendo qualcos'altro - il numero di azioni non proviene da campioni indipendenti di Poisson" - cioè rifiuta la tua ipotesi nulla.

Esistono test senza distribuzione che possono confrontare osservazioni accoppiate utilizzando le classifiche e così via. In genere fanno un gran numero di permutazioni e calcolano una statistica di prova ...


4

Ancora una cosa: dovresti studiare anche i valori anomali nei dati di conteggio. Hai un conteggio a 400 ish e poi niente fino a 800 ish. Non è probabile che sia adatto a nessuno dei modelli comuni.


1

Sembra che tu stia contando il numero di eventi zero - in tal caso, potresti prendere in considerazione un modello ZIP (o Hurdle) - fai riferimento a Modelli di regressione per i dati di conteggio in R di Zeileis et al per una panoramica.

Per riassumere approssimativamente, questi metodi modellano i conteggi zero separatamente dal resto dei conteggi che potrebbero essere utili nel tuo caso.

Fare riferimento al psclpacchetto e alle funzioni zeroinfl()e hurdle().


1

Sospetto che il tuo istogramma sia ingannevolmente ingannato. Se hai poco più di 300 osservazioni distribuite uniformemente nell'intervallo 0-50, circa 320 uniformemente distribuite nell'intervallo 50-100 e 50 o più sopra 100, la tua media dovrebbe essere sostanzialmente più grande di 18.2.

Se i dati nell'intervallo 0-50 non sono distribuiti uniformemente ma concentrati vicino allo zero, vedere di più nell'intervallo 50-100 che nell'intervallo 0-50 è sorprendente.

Forse hai un mix di distribuzioni. Dubito che chiunque possa fare molto con questo senza le effettive 696 osservazioni e soprattutto senza sapere di più sul contesto. Ciascuna delle 696 osservazioni è un individuo e la risposta è il numero di azioni intraprese da ciascun individuo? In tal caso, ci sono diversi tipi di individui nei dati?

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.