Campionamento esatto da miscele improprie


10

Supponiamo che io voglia campionare da una distribuzione continua . Se ho un'espressione di nel modulop(x)p

p(x)=i=1aifi(x)

dove e f_i sono distribuzioni da cui è possibile campionare facilmente, quindi posso facilmente generare campioni da p mediante:ai0,iai=1fip

  1. Campionamento di un'etichetta i con probabilità ai
  2. Campionamento Xfi

È possibile generalizzare questa procedura se ai sono occasionalmente negativi? Sospetto di averlo visto da qualche parte - forse in un libro, forse per la distribuzione di Kolmogorov - quindi sarei perfettamente felice di accettare un riferimento come risposta.

Se un esempio di giocattolo concreto è utile, diciamo che vorrei campionare da

p(x,y)exp(xyαxy)x,y>0
Allora prendi α(0,2) per ragioni tecniche che non dovrebbero importare troppo, nel grande schema delle cose.

In linea di principio, potrei quindi espandere questo come la seguente somma:

p(X,y)αΣn=0(-1)nαn(n2)!(n2)!n!(Xn/2e-X(n2)!)(yn/2e-y(n2)!).

I termini all'interno della somma possono quindi essere campionati indipendentemente da variate casuali di gamma. Il mio problema è evidentemente che i coefficienti sono "occasionalmente" negativi.(X,y)

Modifica 1 : chiarisco che sto cercando di generare campioni esatti da , piuttosto che calcolare le aspettative in . Per coloro che sono interessati, alcune procedure per farlo sono citate nei commenti.ppp

Modifica 2 : Ho trovato il riferimento che include un approccio particolare a questo problema, nella "Generazione casuale non uniforme di Devroye" . L'algoritmo è tratto da "A Note on Sampling from Combinations of Distributions", di Bignami e de Matteis . Il metodo consiste effettivamente nel limitare la densità dall'alto dai termini positivi della somma e quindi utilizzare il campionamento del rifiuto basato su questo inviluppo. Ciò corrisponde al metodo descritto nella risposta di @ Xi'an.


1
Perché non puoi campionare semplicemente usando il valore assoluto di e quindi negando il tuo esempio ? In altre parole, definire(ammesso che sia finita), e quindi rinormalizzare vostra somma per . X f i Z : = i = 1 | a i | Zun'ioX~fioZ: =Σio=1|un'io|Z
Alex R.

2
@AlexR. Se ti capisco, una versione di questo sarebbe pratica per calcolare le aspettative in , ma non per trarre campioni esatti da . Certamente questa è una risposta a un problema rilevante, anche se non proprio quello che sto cercando. ppp
8

4
Dipende da cosa intendi fare con quel campione. Ai fini del calcolo dei momenti, ad esempio, sembra semplice generalizzare il campionamento da miscele di densità contrassegnando ulteriormente qualsiasi punto selezionato da un componente con coefficiente negativo come un punto "negativo" e ponderando negativamente il suo contributo nella stima del momento. Allo stesso modo potresti costruire un KDE con tali pesi negativi, purché tu possa accettare la possibilità che alcuni dei suoi valori siano negativi! (cc @ Xi'an)
whuber

1
Quale sarebbe un campione "esatto" di una distribuzione? Ancora una volta, se e come è possibile sfruttare una miscela con pesi negativi dipende da come si intende utilizzare il campione.
whuber

1
Questo non risponde alla tua domanda, ma potresti essere interessato a leggere sul campionamento dalle statistiche sulle
Tim

Risposte:


5

Mi sono perplesso su questa domanda ma non ho mai trovato una soluzione soddisfacente.

Una proprietà che può essere utile è che, se una densità scrive dove è un densità tale che , simulando da rifiutando queste simulazioni con probabilità fornisce simulazioni da . Nel caso attuale, è la versione normalizzata dei componenti a peso positivo e è il resto g g ( x ) ω h ( x ) g ω h ( x ) / g ( x ) f g g ( x ) = α i > 0 α i

f(x)=g(x)ωh(x)1ωω>0
gg(x)ωh(x)gωh(x)/g(x)fg ω h h ( x ) = α
g(x)=αi>0αifi(x)/αi>0αi
ωh
h(x)=αi<0αifi(x)/αi<0αi
Questo si trova in effetti nella bibbia di simulazione di Devroye, generazione di variabili casuali non uniformi , Sezione II.7.4, ma segue un semplice ragionamento accettazione-rifiuto.

Un primo inconveniente computazionale di questo approccio è che, nonostante simulando prima da un componente scelto , le somme sia ed devono essere calcolati per la fase di rigetto. Se le somme sono infinite senza una versione in formato chiuso, ciò rende impossibile implementare il metodo accetta-rifiuta . g hfigh

Una seconda difficoltà è che, poiché entrambe le somme di pesi sono dello stesso ordine il tasso di rifiutonon ha limiti superiori. In realtà se le serie associate a1-ϱaccetta=α i < 0 | αi| / i | αi| α i

αi>0αi=1αi<0αi
1ϱaccept=αi<0|αi|/i|αi|
αi 's non converge assolutamente, la probabilità di accettazione è zero! E il metodo non può essere implementato in questa situazione.

Nel caso di una rappresentazione mista, se può essere scritto come il componente può essere scelto prima e poi il metodo applicato al componente. Ma questo può essere delicato da implementare, identificando le coppie che si adattano aff

f(x)=i=1αigi(x)ωih(xi)1ωiωi>0
g i ( x ) - ω i h ( x i ) > 0(gi,hi)gi(x)ωih(xi)>0 dalla somma forse infinita non essendo necessariamente fattibile.

Penso che una risoluzione più efficiente potrebbe venire dalla rappresentazione della serie stessa. Devroye, generazione di variabili casuali non uniformi , Sezione IV.5, contiene una vasta gamma di metodi in serie. Come ad esempio il seguente algoritmo per una rappresentazione in serie alternativa del target quando ' s converge a zero con e è una densità: a i ( x ) n h

f(x)=κh(x){1a1(x)+a2(x)}
ai(x)nhMetodo di serie alternativo di Devroye

Il problema è stato recentemente considerato nel contesto del debiasing di stimatori distorti per MCMC, come ad esempio nell'approccio di Glynn-Rhee . E lo stimatore della roulette russa (con una connessione con il problema di fabbrica di Bernoulli). E la metodologia MCMC imparziale . Ma non c'è scampo alla questione dei segni ... Il che rende il suo uso impegnativo quando si stimano le densità come nei metodi pseudo-marginali.

Dopo ulteriori riflessioni, la mia conclusione è che non esiste un metodo generico per produrre una simulazione reale da questa serie [piuttosto che una miscela che risulta essere un termine improprio], senza imporre ulteriori strutture agli elementi della serie, come quella in l'algoritmo sopra riportato dalla Bibbia di Devroye . Infatti, poiché la maggior parte delle densità (?) Consente un'espansione in serie del tipo sopra, ciò implicherebbe altrimenti l'esistenza di una sorta di macchina di simulazione universale ...


Grazie! Apprezzo anche i riferimenti aggiuntivi.
πr8

1
Ulteriori ringraziamenti per la risposta e i riferimenti molto approfonditi. Sono felice di accettare questa risposta in quanto riesce a generare campioni esatti da in un tempo finito. Probabilmente continuerò a pensare al problema in una certa misura; l'unica idea aggiuntiva che ho avuto che sembra promettente è quella di vedere il campionamento da come campionamento , subordinato a , e che potrebbe esserci qualche geometria intuizione che è utile per questa caratterizzazione (sto pensando come un campionatore di sezioni su ). Saluti! pp=λg-μhX~gλgμh{(x,y):μh(x)<y<λg(x)}
π8

1
Ho spiegato il campionatore condizionale abbastanza male; la caratterizzazione basata su set è un po 'più chiara (secondo me). Il mio punto chiave è che se si può campionare modo uniforme dall'insieme bidimensionale nell'ultima riga, ne consegue che la coordinata ha la distribuzione corretta. Resta da vedere se questa caratterizzazione può essere utile per miscele improprie basate sulla somma più lunghe. (X,y)X
π8

1
Stavo anche pensando a un campionatore di sezioni, ma questo non è "esatto" in senso di simulazione.
Xi'an,

1

Ho la bozza di un'idea che potrebbe funzionare. Non è esatto , ma si spera asintoticamente esatto. Per trasformarlo in un metodo davvero rigoroso, in cui l'approssimazione è controllata, o qualcosa può essere provato, probabilmente c'è molto lavoro necessario.

gh

p=λg-μh

λ-μ=1λ1

Np

  • λNg
  • μNh

(λ-μ)N=NNnN

xvxϵgvλNg(X)εμNh(X)εNp(X)ε. Per questo è necessario supporre che il numero di punti nel volume sia sufficientemente grande.

gh ma opera potenza in piccole dimensioni e sufficientemente liscia, distribuzioni "sufficientemente uniformi".

Nota su un metodo esatto:

ghghx(λpμq)pqλppλ>1


1
Ho considerato questo, ma l'ho respinto perché i miei sforzi iniziali per dimostrare che poteva funzionare hanno portato alla realizzazione che, nella migliore delle ipotesi, sarà un'approssimazione e potenzialmente una scarsa. Sì, asintoticamente potrebbe funzionare, ma non soddisferà la richiesta del PO di campionamento "esatto" dalla distribuzione.
whuber

L'efficienza di questo metodo è esattamente dello stesso ordine dell'esatto metodo accetta-rifiuta.
Xi'an,

1
ghxgh

1
g/(g+h)gh

@BenoitSanchez Grazie per la tua risposta approfondita; Apprezzo in particolare i commenti alla fine sull'impossibilità (potenziale) dell'esattezza. Ho incontrato le fabbriche di Bernoulli in passato e le ho trovate piuttosto impegnative; Proverò a rivisitare l'argomento e vedere se fornisce approfondimenti.
π8
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.