Che cos'è il campionamento per importanza?


Risposte:


15

Il campionamento dell'importanza è una forma di campionamento da una distribuzione diversa dalla distribuzione degli interessi in modo da ottenere più facilmente stime migliori di un parametro dalla distribuzione degli interessi. In genere, ciò fornirà stime del parametro con una varianza inferiore rispetto a quella che si otterrebbe campionando direttamente dalla distribuzione originale con le stesse dimensioni del campione.

È applicato in vari contesti. In generale, il campionamento dalla diversa distribuzione consente di prelevare più campioni in una porzione della distribuzione di interesse dettata dall'applicazione (regione importante).

Un esempio potrebbe essere quello di voler avere un campione che includa più campioni dalle code della distribuzione di quanti ne fornirebbe un puro campionamento casuale dalla distribuzione degli interessi.

L' articolo di Wikipedia che ho visto su questo argomento è troppo astratto. È meglio guardare vari esempi specifici. Tuttavia include collegamenti ad applicazioni interessanti come le reti bayesiane.

Un esempio di campionamento di importanza negli anni '40 e '50 è una tecnica di riduzione della varianza (una forma del metodo Monte Carlo). Vedi ad esempio il libro Monte Carlo Methods di Hammersley e Handscomb pubblicato come Monografia / Chapman and Hall di Methuen nel 1964 e ristampato nel 1966 e successivamente da altri editori. La sezione 5.4 del libro tratta il campionamento dell'importanza.


2
Per aggiungere a questo: in RL stai generalmente applicando il campionamento di importanza alla politica: ad esempio campionando le azioni da una politica di esplorazione invece della politica reale che vuoi veramente campionare
DaVinci

3
Questa risposta inizia bene spiegando che cosa importance sampling fa, ma sono rimasto deluso per scoprire che in realtà non risponde mai alla domanda su cosa campionamento importanza è : come funziona?
whuber

@whuber Il mio obiettivo qui era quello di spiegare il concetto a un PO confuso e indicarlo a un po 'di letteratura. È un argomento importante e viene utilizzato in applicazioni apparentemente diverse. Altri potrebbero essere in grado di spiegare i dettagli in termini semplici meglio di me. So che quando decidi di rispondere a una domanda vai a fare il porco e fornisci dei bei grafici, attraverso i dettagli tecnici usando un linguaggio semplice. Quei post soddisfano quasi sempre la comunità con la sua chiarezza e completezza e oso dire che soddisfa anche il PO almeno in parte. Forse alcune frasi con equazioni sarebbero sufficienti come suggerisci.
Michael R. Chernick,

Forse è meglio che la comunità venga inserita in una risposta alla domanda piuttosto che semplicemente puntare ad altre fonti o addirittura fornire collegamenti. Ho solo sentito che ciò che ho fatto è stato adeguato e il PO che ammette di essere un novizio di statistica dovrebbe fare qualche sforzo da solo.
Michael R. Chernick,

5
Tu hai un punto. Mi chiedo, tuttavia, se sia possibile solo in una o due frasi in più - nessuna matematica, nessun grafico, quasi nessun lavoro extra - per fornire una risposta alla domanda come posta. In questo caso la descrizione dovrebbe sottolineare che si sta stimando l' attesa (non solo un qualsiasi "parametro"), quindi forse sottolineare che poiché l'attesa somma un prodotto di valori e probabilità, si ottiene lo stesso risultato modificando le probabilità ( a quelli di una distribuzione da cui è facile campionare) e regolando i valori per compensare ciò.
whuber

33

Il campionamento dell'importanza è una simulazione o metodo Monte Carlo inteso per l'approssimazione di integrali. Il termine "campionamento" è alquanto confuso in quanto non intende fornire campioni da una determinata distribuzione.

L'intuizione alla base del campionamento per importanza è che un integrale ben definito, come può essere espresso come aspettativa per una vasta gamma di distribuzioni di probabilità: I = E f [ H ( X ) ] = X H ( x ) f ( x )

I=Xh(x)dx
dove f indica la densità di una distribuzione di probabilità e H è determinata da h e f . (Nota che H ( ) è generalmente diverso da h ( ) .)In effetti, la scelta H ( x ) = h ( x )
I=Ef[H(X)]=XH(X)f(X)dX
fHhfH()h() porta alle uguaglianzeH(x)f(x)=h(x)eI=Ef[H(X)]-sotto alcune restrizioni sul supporto dif, che significaf(x)>0quandoh(x)0-
H(x)=h(x)f(x)
H(x)f(x)=h(x)I=Ef[H(X)]ff(x)>0h(x)0. Quindi, come sottolineato da W. Huber nel suo commento, non c'è unicità nella rappresentazione di un integrale come aspettativa, ma al contrario una serie infinita di tali rappresentazioni, alcune delle quali sono migliori di altre una volta un criterio da confrontare loro è adottato. Ad esempio, Michael Chernick menziona la scelta di per ridurre la varianza dello stimatore.f

Una volta compresa questa proprietà elementare, l'implementazione dell'idea è quella di fare affidamento sulla Legge dei Grandi Numeri come in altri metodi Monte Carlo, vale a dire simulare [tramite un generatore pseudo-casuale] un campione iid distribuiti da f e usare il ravvicinamento I = 1(x1,,xn)fquale

I^=1ni=1nH(xi)
  1. è uno stimatore imparziale di I
  2. converge quasi sicuramente a I

A seconda della scelta della distribuzione , sopra stimatore che può o non può avere una varianza finita. Tuttavia, esistono sempre scelte di f che consentono una varianza finita e persino una varianza arbitrariamente piccola (sebbene tali scelte possano non essere disponibili nella pratica). E esistono anche scelte di f che rendono il campionamento importanza stimatore ho un pessimo ravvicinamento delle io . Ciò include tutte le scelte in cui la varianza diventa infinita, anche se un recente articolo di Chatterjee e Diaconis studia come confrontare i campionatori di importanza con la varianza infinita. L'immagine qui sotto è presa dafI^ffI^Iil mio blog la discussione della carta e illustra la scarsa convergenza di stimatori di varianza infinite.

Importance sampling with importance distribution an Exp(1) distribution target distribution an Exp(1/10) distribution, and function of interest $h(x)=x$. The true value of the integral is $10$.

Campionamento dell'importanza con distribuzione di importanza una distribuzione target di distribuzione Exp (1) una distribuzione Exp (1/10) e funzione di interesse . Il vero valore dell'integrale è 10 .h(x)=x10

[Quanto segue è riprodotto dal nostro libro Metodi statistici Monte Carlo .]

f

Xh(x)f(x)dx

pC(0,1)2

p=2+1π(1+x2)dx.
p
p^1=1mj=1mIXj>2
X1,,Xm C(0,1)p(1p)/m0.127/mp=0.15

C(0,1)

p^2=12mj=1mI|Xj|>2
p(12p)/2m0.052/m

[2,+)pp

p=12021π(1+x2)dx,
h(X)=2/π(1+X2), where XU[0,2]. An alternative method of evaluation for p is therefore
p^3=121mj=1mh(Uj)
for UjU[0,2]. The variance of p^3 is (E[h2]E[h]2)/m and an integration by parts shows that it is equal to 0.0285/m. Moreover, since p can be written as
p=01/2y2π(1+y2)dy,
this integral can also be seen as the expectation of 14h(Y)=1/2π(1+Y2) against the uniform distribution on [0,1/2] and another evaluation of p is
p^4=14mj=1mh(Yj)
when YjU[0,1/2]. The same integration by parts shows that the variance of p^4 is then 0.95104/m.

Compared with p^1, the reduction in variance brought by p^4 is of order 103, which implies, in particular, that this evaluation requires 100032 times fewer simulations than p^1 to achieve the same precision.


5
Thank you @Xi' an for going to the trouble of illustrating importance sampling in a way that everyone can appreciate and I think more than satisfies Bill Huber's request. +1
Michael R. Chernick

2
I want to note that initially this post was put on hold and thanks to the contributions of several people. We have come up with an informative thread.
Michael R. Chernick

5
Christian, I want to extend my thanks and express a feeling of privilege that you are actively sharing such excellent material with us.
whuber

4
I just want to add a thank you to Xi'an who was kind enough to make a few edits to improve my answer even though he gave one of his own.
Michael R. Chernick

3
This has to be one of the best posts on stats.stackexchange. Thanks for sharing!
dohmatob
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.