L'algoritmo bandit più noto è il limite di confidenza superiore (UCB) che ha reso popolare questa classe di algoritmi. Da allora presumo che ora ci siano algoritmi migliori. Qual è l'attuale migliore algoritmo (in termini di prestazioni empiriche o limiti teorici)? Questo algoritmo è in qualche modo ottimale?