Tre momenti non determinano una forma distributiva; se si sceglie una famiglia di distribuzione con tre parametri relativi ai primi tre momenti della popolazione, è possibile eseguire la corrispondenza dei momenti ("metodo dei momenti") per stimare i tre parametri e quindi generare valori da tale distribuzione. Esistono molte di queste distribuzioni.
A volte anche avere tutti i momenti non è sufficiente per determinare una distribuzione. Se esiste la funzione di generazione del momento (in un vicinato pari a 0), identifica in modo univoco una distribuzione (in linea di principio è possibile effettuare una trasformazione inversa di Laplace per ottenerla).
[Se alcuni momenti non sono finiti ciò significherebbe che il mgf non esiste, ma ci sono anche casi in cui tutti i momenti sono limitati ma il mgf non esiste ancora in un quartiere di 0.]
Dato che c'è una scelta di distribuzioni, si potrebbe essere tentati di considerare una soluzione di entropia massima con il vincolo sui primi tre momenti, ma non c'è distribuzione sulla linea reale che la raggiunge (poiché il cubo risultante nell'esponente non sarà limitato).
Come funzionerebbe il processo per una specifica scelta di distribuzione
γ1= μ3/ μ3 / 22
Possiamo farlo perché dopo aver selezionato una distribuzione con l'asimmetria pertinente, possiamo quindi annullare la media e la varianza desiderate ridimensionando e spostando.
Consideriamo un esempio. Ieri ho creato un set di dati di grandi dimensioni (che si trova ancora nella mia sessione R) la cui distribuzione non ho provato a calcolare la forma funzionale di (è un grande set di valori del registro della varianza di esempio di un Cauchy in n = 10). Abbiamo i primi tre momenti grezzi rispettivamente come 1.519, 3.597 e 11.479, o corrispondentemente una media di 1.518, una deviazione standard * di 1.136 e un'asimmetria di 1.429 (quindi questi sono valori di campionamento da un grande campione).
Formalmente, il metodo dei momenti tenterebbe di abbinare i momenti grezzi, ma il calcolo è più semplice se iniziamo con l'asimmetria (trasformare la risoluzione di tre equazioni in tre incognite in risoluzione per un parametro alla volta, un compito molto più semplice).
* Sto per spazzare via la distinzione tra l'uso di un denominatore n sulla varianza - come corrisponderebbe al metodo formale dei momenti - e un denominatore n-1 e utilizzare semplicemente i calcoli del campione.
Questa asimmetria (~ 1,43) indica che cerchiamo una distribuzione che sia inclinata a destra. Potrei scegliere, ad esempio, una distribuzione lognormale spostata (tre parametri lognormale, forma σ , scala μ e posizione-spostamento γ ) con gli stessi momenti. Cominciamo abbinando l'asimmetria. L'asimmetria della popolazione di un lognormale a due parametri è:
γ1= ( eσ2+ 2 ) eσ2- 1-----√
σ2σ~2
γ21( τ+ 2 )2( τ- 1 )τ= eσ2τ3+ 3 τ2- 4 = γ21τ~≈ 1.1995σ~2≈ 0,1819γ1
μ
Ma avremmo potuto facilmente scegliere una distribuzione di gamma spostata o Weibull spostata (o una F spostata o un numero qualsiasi di altre scelte) e seguire essenzialmente lo stesso processo. Ognuno di loro sarebbe diverso.
[Per il campione con cui ho avuto a che fare, una gamma spostata sarebbe stata probabilmente una scelta considerevolmente migliore rispetto a una lognormale spostata, poiché la distribuzione dei registri dei valori è stata lasciata distorta e la distribuzione della radice del cubo era molto simile alla simmetrica; questi sono coerenti con ciò che vedrete con densità gamma (non spostate), ma una densità inclinata a sinistra dei registri non può essere raggiunta con alcun lognormale spostato.]
Si potrebbe anche prendere il diagramma di asimmetria-curtosi in un diagramma di Pearson e tracciare una linea sull'asimmetria desiderata e quindi ottenere una distribuzione a due punti, una sequenza di distribuzioni beta, una distribuzione gamma, una sequenza di distribuzioni beta-prime, un inverso- distribuzione di gamma e una sequenza di distribuzioni Pearson di tipo IV tutte con la stessa inclinazione.
β1= γ21β2
γ21= 2.042σ
Più momenti
I momenti non bloccano molto bene le distribuzioni, quindi anche se specifichi molti momenti, ci saranno comunque molte diverse distribuzioni (in particolare in relazione al loro comportamento di coda estrema) che le corrisponderanno.
Puoi ovviamente scegliere una famiglia distributiva con almeno quattro parametri e tentare di abbinare più di tre momenti; ad esempio le distribuzioni di Pearson sopra ci permettono di abbinare i primi quattro momenti, e ci sono altre scelte di distribuzioni che consentirebbero un simile grado di flessibilità.
Si possono adottare altre strategie per scegliere le distribuzioni che possono abbinare le caratteristiche distributive: distribuzioni di miscele, modellizzazione della densità del log usando le spline e così via.
Spesso, tuttavia, se si torna allo scopo iniziale per il quale si cercava di trovare una distribuzione, si scopre spesso che c'è qualcosa di meglio che può essere fatto rispetto al tipo di strategia delineata qui.