Algoritmo ottimale per risolvere i problemi del bandito armato?

Ho letto di un certo numero di algoritmi per risolvere problemi di bandito n-armati come -greedy, softmax e UCB1, ma ho qualche problema nell'ordinare quale approccio è meglio per minimizzare il rimpianto. $\epsilon$

Esiste un algoritmo ottimale noto per risolvere il problema dei banditi n-armati? Esiste una scelta di algoritmo che sembra funzionare meglio nella pratica?

machine-learning reinforcement-learning multiarmed-bandit

— JS01
fonte

Presumibilmente non esiste una soluzione ottimale riconosciuta, altrimenti la pagina di Wikipedia lo direbbe e non ci sarebbe una pagina di Sourceforge

— Henry,

Questo non dovrebbe essere su Theoretical Computer Science SE?

@mbq poiché l'apprendimento per rinforzo è una branca dell'apprendimento automatico, non credo;)

— steffen,

@steffen Certo, il nome sembrava "tcsy".

@mbq non capisco. Cosa significa "tscy"?

— Steffen,

Ecco due documenti del sondaggio che ho trovato di recente. Non li ho ancora letti, ma gli abstract sembrano promettenti.

Joann`s Vermorel e Mehryar Mohri: Multi-Armed Bandit Algorithms and Empirical Evaluation (2005)

Dall'abstract:

Il problema del bandito multi-braccio per un giocatore d'azzardo è decidere quale braccio di una slot machine K tirare per massimizzare la sua ricompensa totale in una serie di prove. Molti problemi di apprendimento e ottimizzazione del mondo reale possono essere modellati in questo modo. Diverse strategie o algoritmi sono stati proposti come soluzione a questo problema negli ultimi due decenni, ma, per quanto ne sappiamo, non esiste una valutazione comune di questi algoritmi.

Volodymyr Kuleshov e Doina Precup: Algorithms for the multi-arms bandit problem (2000) Dall'abstract :

In secondo luogo, le prestazioni della maggior parte degli algoritmi variano notevolmente a seconda dei parametri del problema del bandito. Il nostro studio identifica per ciascun algoritmo le impostazioni in cui funziona bene e le impostazioni in cui funziona male.

— Steffen
fonte