Ho letto di un certo numero di algoritmi per risolvere problemi di bandito n-armati come -greedy, softmax e UCB1, ma ho qualche problema nell'ordinare quale approccio è meglio per minimizzare il rimpianto.
Esiste un algoritmo ottimale noto per risolvere il problema dei banditi n-armati? Esiste una scelta di algoritmo che sembra funzionare meglio nella pratica?