Il miglior algoritmo bandito?

27

L'algoritmo bandit più noto è il limite di confidenza superiore (UCB) che ha reso popolare questa classe di algoritmi. Da allora presumo che ora ci siano algoritmi migliori. Qual è l'attuale migliore algoritmo (in termini di prestazioni empiriche o limiti teorici)? Questo algoritmo è in qualche modo ottimale?

— Artem Kaznatcheev
fonte

25

Un articolo del NIPS 2011 ("Una valutazione empirica di Thompson Sampling") mostra, negli esperimenti, che Thompson Sampling batte UCB. UCB si basa sulla scelta della leva che promette la ricompensa più alta in base a ipotesi ottimistiche (vale a dire che la varianza della stima della ricompensa prevista è elevata, quindi si tirano le leve che non si conoscono bene). Invece, Thompson Sampling è completamente bayesiano: genera una configurazione a bandito (cioè un vettore di ricompense attese) da una distribuzione posteriore, e quindi agisce come se questa fosse la vera configurazione (cioè tira la leva con la ricompensa più alta prevista).

La regola di controllo bayesiana (" Un principio di entropia relativa minima per l'apprendimento e la recitazione ", JAIR), una generalizzazione del campionamento di Thompson, deriva il campionamento di Thompson dai principi teorici dell'informazione e dalla causalità. In particolare, è dimostrato che la regola di controllo bayesiana è la strategia ottimale quando si desidera ridurre al minimo il KL tra la propria strategia e la strategia ottimale (sconosciuta) e se si tiene conto dei vincoli causali. Il motivo per cui questo è importante è perché questo può essere visto come un'estensione dell'inferenza bayesiana alle azioni: l'inferenza bayesiana può essere dimostrata come la strategia di predizione ottimale quando il tuo criterio di prestazione è il KL tra il tuo stimatore e la (vera) distribuzione sconosciuta.

— Pedro A. Ortega
fonte

16

UCB è davvero quasi ottimale nel caso stocastico (fino a un fattore T log per una partita a T round), e fino a un gap nella disuguaglianza di Pinsker in un senso più dipendente dal problema. Un recente documento di Audibert e Bubeck rimuove questa dipendenza dai tronchi nel caso peggiore, ma ha un limite peggiore nel caso favorevole quando armi diverse hanno ricompense ben separate.

In generale, UCB è un candidato di una famiglia più ampia di algoritmi. In qualsiasi momento del gioco, puoi guardare tutte le braccia che non sono "squalificate", cioè il cui limite di confidenza superiore non è inferiore al limite di confidenza inferiore di un braccio. La raccolta basata su qualsiasi distribuzione di tali bracci qualificati costituisce una strategia valida e ottiene un rimpianto simile fino alle costanti.

Empiricamente, non penso che ci sia stata una valutazione significativa di molte strategie diverse, ma penso che UCB sia spesso abbastanza buono.

La maggior parte delle ricerche più recenti si è concentrata sull'estensione dei problemi del bandito oltre la semplice ambientazione armata di K con ricompense stocastiche, a spazi di azione molto ampi (o infiniti), con o senza informazioni secondarie e sotto feedback stocastico o contraddittorio. C'è stato anche lavoro in scenari in cui i criteri di prestazione sono diversi (come l'identificazione del solo braccio migliore).

4

Lo stato dell'arte attuale potrebbe essere riassunto in questo modo:

$R_T = O(\frac{K \log T}{\Delta})$
$\tilde{R}_T = O(\sqrt{T K \log K})$
contestuale: è complicato

$T$ $K$ $\Delta$

— oDDsKooL
fonte