Algoritmo ottimale per risolvere i problemi del bandito armato?


13

Ho letto di un certo numero di algoritmi per risolvere problemi di bandito n-armati come -greedy, softmax e UCB1, ma ho qualche problema nell'ordinare quale approccio è meglio per minimizzare il rimpianto.ε

Esiste un algoritmo ottimale noto per risolvere il problema dei banditi n-armati? Esiste una scelta di algoritmo che sembra funzionare meglio nella pratica?


Presumibilmente non esiste una soluzione ottimale riconosciuta, altrimenti la pagina di Wikipedia lo direbbe e non ci sarebbe una pagina di Sourceforge
Henry,

Questo non dovrebbe essere su Theoretical Computer Science SE?

1
@mbq poiché l'apprendimento per rinforzo è una branca dell'apprendimento automatico, non credo;)
steffen,

@steffen Certo, il nome sembrava "tcsy".

@mbq non capisco. Cosa significa "tscy"?
Steffen,

Risposte:


9

Ecco due documenti del sondaggio che ho trovato di recente. Non li ho ancora letti, ma gli abstract sembrano promettenti.

Joann`s Vermorel e Mehryar Mohri: Multi-Armed Bandit Algorithms and Empirical Evaluation (2005)

Dall'abstract:

Il problema del bandito multi-braccio per un giocatore d'azzardo è decidere quale braccio di una slot machine K tirare per massimizzare la sua ricompensa totale in una serie di prove. Molti problemi di apprendimento e ottimizzazione del mondo reale possono essere modellati in questo modo. Diverse strategie o algoritmi sono stati proposti come soluzione a questo problema negli ultimi due decenni, ma, per quanto ne sappiamo, non esiste una valutazione comune di questi algoritmi.

Volodymyr Kuleshov e Doina Precup: Algorithms for the multi-arms bandit problem (2000) Dall'abstract :

In secondo luogo, le prestazioni della maggior parte degli algoritmi variano notevolmente a seconda dei parametri del problema del bandito. Il nostro studio identifica per ciascun algoritmo le impostazioni in cui funziona bene e le impostazioni in cui funziona male.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.