Metodi di adattamento di distribuzioni discrete
Esistono tre metodi principali * utilizzati per adattare (stimare i parametri di) distribuzioni discrete.
Questo trova i valori dei parametri che danno le migliori possibilità di fornire il tuo campione (dati gli altri presupposti, come indipendenza, parametri costanti, ecc.)
Questo trova i valori dei parametri che fanno coincidere i primi momenti della popolazione con i tuoi momenti campione. Spesso è abbastanza facile da fare e in molti casi produce stimatori abbastanza ragionevoli. A volte viene anche utilizzato per fornire valori iniziali alle routine ML.
Ciò riduce al minimo la bontà chi-quadro della statistica di adattamento rispetto alla distribuzione discreta, sebbene a volte con set di dati più grandi, le categorie finali potrebbero essere combinate per comodità. Spesso funziona abbastanza bene e ha anche probabilmente dei vantaggi rispetto alla ML in particolari situazioni, ma generalmente deve essere ripetuto alla convergenza, nel qual caso la maggior parte delle persone tende a preferire la ML.
I primi due metodi sono utilizzati anche per distribuzioni continue; il terzo di solito non viene utilizzato in quel caso.
Questi non comprendono affatto un elenco esaustivo e sarebbe del tutto possibile stimare i parametri minimizzando ad esempio la statistica KS - e persino (se si adegua per la discrezione), per ottenere una regione di consonanza comune da essa , se lo si fosse così propenso. Dato che stai lavorando in R, la stima ML è abbastanza facile da ottenere per il binomio negativo. Se il tuo campione è stato inserito x
, è semplice come library(MASS);fitdistr (x,"negative binomial")
:
> library(MASS)
> x <- rnegbin(100,7,3)
> fitdistr (x,"negative binomial")
size mu
3.6200839 6.3701156
(0.8033929) (0.4192836)
Quelle sono le stime dei parametri e i loro errori standard (asintotici).
Nel caso della distribuzione di Poisson, MLE e MoM stimano entrambi il parametro Poisson nella media del campione.
Se desideri vedere degli esempi, dovresti pubblicare alcuni conteggi effettivi. Nota che il tuo istogramma è stato fatto con i bin scelti in modo da combinare le categorie 0 e 1 e non abbiamo i conteggi grezzi.
Per quanto posso immaginare, i tuoi dati sono approssimativamente i seguenti:
Count: 0&1 2 3 4 5 6 >6
Frequency: 311 197 74 15 3 1 0
Ma i grandi numeri saranno incerti (dipende fortemente da quanto accuratamente i conteggi bassi sono rappresentati dai conteggi dei pixel delle loro altezze delle barre) e potrebbe essere un multiplo di quei numeri, come il doppio di quei numeri (i conteggi grezzi influenzano gli errori standard, quindi importa se si tratta di quei valori o due volte più grandi)
La combinazione dei primi due gruppi lo rende un po 'imbarazzante (è possibile farlo, ma meno semplice se si combinano alcune categorie. Molte informazioni sono contenute in quei primi due gruppi, quindi è meglio non lasciare che l'istogramma predefinito li grumi ).
* Naturalmente sono possibili altri metodi per adattare le distribuzioni discrete (ad esempio, si potrebbero corrispondere ai quantili o minimizzare altre statistiche di bontà di adattamento). Quelli che menziono sembrano essere i più comuni.