Posso usare i momenti di una distribuzione per campionare la distribuzione?


14

Noto in metodi statistici / di apprendimento automatico, una distribuzione è spesso approssimata da un gaussiano e quindi il gaussiano viene utilizzato per il campionamento. Iniziano calcolando i primi due momenti della distribuzione e li usano per stimare e . Quindi possono assaggiare da quel gaussiano.μσ2

Mi sembra che più momenti ho calcolato, meglio dovrei essere in grado di approssimare la distribuzione che desidero campionare.

Cosa succede se calcolo 3 momenti ... come posso utilizzarli per campionare dalla distribuzione? E questo può essere esteso a N momenti?


2
Tre momenti non determinano una forma distributiva *; se si sceglie una famiglia di distribuzione con tre parametri relativi ai primi tre momenti della popolazione, è possibile eseguire la corrispondenza dei momenti ("metodo dei momenti") per stimare i tre parametri e quindi generare valori da tale distribuzione. Esistono molte di queste distribuzioni. [* In effetti, a volte persino avere tutti i momenti non è sufficiente per determinare una distribuzione.]
Glen_b -Reinstate Monica

Grazie, @Glen_b! Leggerò il "metodo dei momenti" per capire quando è possibile. Puoi indicarmi la teoria che descrive quando i momenti non sono sufficienti per determinare la distribuzione?
curious_dan,

"Metodo dei momenti" ti dice solo come stimare i parametri dai momenti. Il resto del tuo commento è una nuova domanda (penso che abbia già ricevuto una risposta sul sito); brevemente - se esiste la funzione di generazione del momento (in un vicinato di 0) allora identifica in modo univoco una distribuzione (tecnicamente, in linea di principio si potrebbe fare una trasformazione inversa di Laplace). Certamente se alcuni momenti non sono finiti ciò significherebbe che il mgf non esiste, ma ci sono anche casi in cui tutti i momenti sono limitati ma il mgf non esiste ancora in un quartiere di 0 ..
Glen_b -Reinstate Monica

Sto scrivendo una risposta basata sul mio commento.
Glen_b -Restate Monica

Risposte:


22

Tre momenti non determinano una forma distributiva; se si sceglie una famiglia di distribuzione con tre parametri relativi ai primi tre momenti della popolazione, è possibile eseguire la corrispondenza dei momenti ("metodo dei momenti") per stimare i tre parametri e quindi generare valori da tale distribuzione. Esistono molte di queste distribuzioni.

A volte anche avere tutti i momenti non è sufficiente per determinare una distribuzione. Se esiste la funzione di generazione del momento (in un vicinato pari a 0), identifica in modo univoco una distribuzione (in linea di principio è possibile effettuare una trasformazione inversa di Laplace per ottenerla).

[Se alcuni momenti non sono finiti ciò significherebbe che il mgf non esiste, ma ci sono anche casi in cui tutti i momenti sono limitati ma il mgf non esiste ancora in un quartiere di 0.]

Dato che c'è una scelta di distribuzioni, si potrebbe essere tentati di considerare una soluzione di entropia massima con il vincolo sui primi tre momenti, ma non c'è distribuzione sulla linea reale che la raggiunge (poiché il cubo risultante nell'esponente non sarà limitato).


Come funzionerebbe il processo per una specifica scelta di distribuzione

γ1=μ3/μ23/2

Possiamo farlo perché dopo aver selezionato una distribuzione con l'asimmetria pertinente, possiamo quindi annullare la media e la varianza desiderate ridimensionando e spostando.

Consideriamo un esempio. Ieri ho creato un set di dati di grandi dimensioni (che si trova ancora nella mia sessione R) la cui distribuzione non ho provato a calcolare la forma funzionale di (è un grande set di valori del registro della varianza di esempio di un Cauchy in n = 10). Abbiamo i primi tre momenti grezzi rispettivamente come 1.519, 3.597 e 11.479, o corrispondentemente una media di 1.518, una deviazione standard * di 1.136 e un'asimmetria di 1.429 (quindi questi sono valori di campionamento da un grande campione).

Formalmente, il metodo dei momenti tenterebbe di abbinare i momenti grezzi, ma il calcolo è più semplice se iniziamo con l'asimmetria (trasformare la risoluzione di tre equazioni in tre incognite in risoluzione per un parametro alla volta, un compito molto più semplice).

* Sto per spazzare via la distinzione tra l'uso di un denominatore n sulla varianza - come corrisponderebbe al metodo formale dei momenti - e un denominatore n-1 e utilizzare semplicemente i calcoli del campione.

Questa asimmetria (~ 1,43) indica che cerchiamo una distribuzione che sia inclinata a destra. Potrei scegliere, ad esempio, una distribuzione lognormale spostata (tre parametri lognormale, forma σ , scala μ e posizione-spostamento γ ) con gli stessi momenti. Cominciamo abbinando l'asimmetria. L'asimmetria della popolazione di un lognormale a due parametri è:

γ1=(eσ2+2)eσ2-1

σ2σ~2

γ12(τ+2)2(τ-1)τ=eσ2τ3+3τ2-4=γ12τ~1.1995σ~20,1819γ1

μ

Ma avremmo potuto facilmente scegliere una distribuzione di gamma spostata o Weibull spostata (o una F spostata o un numero qualsiasi di altre scelte) e seguire essenzialmente lo stesso processo. Ognuno di loro sarebbe diverso.

[Per il campione con cui ho avuto a che fare, una gamma spostata sarebbe stata probabilmente una scelta considerevolmente migliore rispetto a una lognormale spostata, poiché la distribuzione dei registri dei valori è stata lasciata distorta e la distribuzione della radice del cubo era molto simile alla simmetrica; questi sono coerenti con ciò che vedrete con densità gamma (non spostate), ma una densità inclinata a sinistra dei registri non può essere raggiunta con alcun lognormale spostato.]

Si potrebbe anche prendere il diagramma di asimmetria-curtosi in un diagramma di Pearson e tracciare una linea sull'asimmetria desiderata e quindi ottenere una distribuzione a due punti, una sequenza di distribuzioni beta, una distribuzione gamma, una sequenza di distribuzioni beta-prime, un inverso- distribuzione di gamma e una sequenza di distribuzioni Pearson di tipo IV tutte con la stessa inclinazione.

β1=γ12β2

Diagramma di Pearson con la linea di asimmetria desiderata disegnata

γ12=2.042σ


Più momenti

I momenti non bloccano molto bene le distribuzioni, quindi anche se specifichi molti momenti, ci saranno comunque molte diverse distribuzioni (in particolare in relazione al loro comportamento di coda estrema) che le corrisponderanno.

Puoi ovviamente scegliere una famiglia distributiva con almeno quattro parametri e tentare di abbinare più di tre momenti; ad esempio le distribuzioni di Pearson sopra ci permettono di abbinare i primi quattro momenti, e ci sono altre scelte di distribuzioni che consentirebbero un simile grado di flessibilità.

Si possono adottare altre strategie per scegliere le distribuzioni che possono abbinare le caratteristiche distributive: distribuzioni di miscele, modellizzazione della densità del log usando le spline e così via.

Spesso, tuttavia, se si torna allo scopo iniziale per il quale si cercava di trovare una distribuzione, si scopre spesso che c'è qualcosa di meglio che può essere fatto rispetto al tipo di strategia delineata qui.


2

Quindi, la risposta è generalmente NO, non puoi farlo, ma a volte puoi.

Quando non puoi

I motivi per cui non puoi farlo di solito sono due volte.

Innanzitutto, se hai N osservazioni, al massimo puoi calcolare N momenti. E gli altri momenti? Non puoi semplicemente impostarli a zero.

γ100=ΣioXio100n

Quando puoi

Ora, a volte puoi ottenere la distribuzione dai momenti. È quando fai un presupposto sulla distribuzione di un qualche tipo. Ad esempio, dichiari che è normale. In questo caso tutto ciò che serve è solo due momenti, che possono essere calcolati con precisione decente, di solito. Si noti che la distribuzione normale ha momenti più elevati, ad esempio la curtosi, ma non ne abbiamo bisogno. Se dovessi calcolare tutti i momenti della distribuzione normale (senza supporre che sia normale), quindi provare a recuperare la funzione caratteristica da campionare dalla distribuzione, non funzionerebbe. Tuttavia, quando ti dimentichi dei momenti più alti e segui i primi due, funziona.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.