Le tecniche di ottimizzazione sono associate a tecniche di campionamento?


18

Da qualsiasi algoritmo di campionamento generico, si può derivare un algoritmo di ottimizzazione.

Infatti, per massimizzare una funzione arbitraria , è sufficiente estrarre campioni da . Per abbastanza piccolo, questi campioni cadranno vicino al massimo globale (o ai massimi locali in pratica) della funzione .g e f / Tf:xf(x)gef/TfTf

Con "campionamento" intendo, estrarre un campione pseudo-casuale da una distribuzione data una funzione di verosimiglianza nota fino a una costante. Ad esempio, campionamento MCMC, campionamento Gibbs, campionamento Beam, ecc. Per "ottimizzazione" intendo il tentativo di trovare parametri che massimizzino il valore di una determinata funzione.


È possibile il contrario? Data un'euristica per trovare il massimo di una funzione o di un'espressione combinatoria, possiamo estrarre una procedura di campionamento efficiente?

HMC ad esempio sembra sfruttare le informazioni sul gradiente. Possiamo costruire una procedura di campionamento che sfrutti un'approssimazione simile alla BFGS dell'Assia? (modifica: apparentemente sì: http://papers.nips.cc/paper/4464-quasi-newton-methods-for-markov-chain-monte-carlo.pdf ) Possiamo usare MCTS in problemi combinatori, possiamo tradurre che in una procedura di campionamento?

Contesto: una difficoltà nel campionamento è spesso che la maggior parte della massa della distribuzione di probabilità risiede in una regione molto piccola. Esistono tecniche interessanti per trovare tali regioni, ma non si traducono direttamente in procedure di campionamento imparziali.


Modifica: ora ho la sensazione persistente che la risposta a questa domanda sia in qualche modo equivalente all'uguaglianza delle classi di complessità #P e NP, rendendo la risposta un probabile "no". Spiega perché ogni tecnica di campionamento produce una tecnica di ottimizzazione ma non viceversa.


Anche se penso di avere una comprensione convenzionale della maggior parte delle parole in questa domanda, non sono sicuro di cosa stia cercando. Potresti dire un po 'più precisamente cosa intendi per "campionamento" e cosa sarebbe esattamente "ottimizzato"? Sembra che tu presuma implicitamente che i tuoi lettori hanno in mente un particolare contesto in cui è coinvolta una "distribuzione" (o una loro famiglia?) E in cui viene assunto un obiettivo particolare, ma puoi solo indovinare ciò che realmente intendi quando fai dichiarazioni così ampie come quelle che compaiono nell'ultimo paragrafo.
whuber

Con "campionamento" intendo, estrarre un campione pseudo-casuale da una distribuzione data una funzione di verosimiglianza nota fino a una costante. Ad esempio, campionamento MCMC, campionamento Gibbs, campionamento Beam, ecc. Per "ottimizzazione" intendo il tentativo di trovare parametri che massimizzino il valore di una determinata funzione. Ad esempio, discesa gradiente, algoritmo simplex, ricottura simulata sono tecniche di ottimizzazione.
Arthur B.

Esiste una mappatura naturale tra ricottura simulata e campionamento MCMC. C'è una mappatura meno diretta tra HMC e discesa del gradiente (se strizzi gli occhi). La mia domanda è se questo può essere reso più sistematico. Una difficoltà nel campionamento è spesso che la maggior parte della massa della distribuzione di probabilità risiede in una regione molto piccola. Esistono tecniche interessanti per trovare questa regione, ma non si traducono direttamente in procedure di campionamento imparziali.
Arthur B.

Modifica la tua domanda per includere questi chiarimenti. Questo è cruciale perché il tuo uso (in qualche modo specializzato) della parola "campionamento", sebbene appropriato nel tuo contesto, differisce da ciò che molti lettori possono capire. Inoltre, la tua spiegazione di "ottimizzazione", sebbene corretta, non sembra essere utile nel rendere il suo significato sufficientemente preciso qui: caratterizzare quale sia la "funzione data" e come potrebbe essere correlata al "campionamento" sarebbero utili aggiunte.
whuber

Va meglio adesso?
Arthur B.

Risposte:




0

Una possibilità è trovare il CDF dell'euristico. Quindi dalla teoria del monte carlo sappiamo che per quella dove F è il cdf della distribuzione che stai cercando. Se non riesci a trovare esattamente il cdf, potresti usare un semplice euristico basato sul rifiuto dell'accettazione.F - 1 ( U ) FUunif[0,1]F1(U)F

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.