Ecco un'astrazione di un problema di apprendimento / bandito online su cui ho lavorato in estate. Non ho mai visto un problema come questo prima e sembra abbastanza interessante. Se conoscete qualche lavoro correlato, apprezzerei i riferimenti.
Il problema L'impostazione è quella dei banditi multi-armati. Hai N braccia. Ogni braccio i ha una distribuzione di probabilità sconosciuta ma fissa sui premi che possono essere guadagnati giocando. Per concretezza, supponiamo che ogni braccio mi paga premiare $ 10 con probabilità p [i] e premiare $ 0 con i prob. 1-p [i] .
In ogni round t selezioni un set S [t] di armi da giocare. Per ogni braccio selezionato, paghi una commissione di $ 1 in anticipo. Per ogni braccio selezionato, raccogli una ricompensa che viene estratta dalla distribuzione (sconosciuta) della probabilità di ricompensa di quel braccio. Tutti i premi vengono accreditati sul tuo conto bancario e tutte le commissioni vengono detratte da tale conto. Inoltre, ricevi un credito di $ 1 all'inizio di ogni iterazione.
Il problema è sviluppare una politica per selezionare un sottoinsieme di armi da giocare in ogni iterazione per massimizzare il profitto (cioè premi meno le commissioni per giocare) su un orizzonte abbastanza lungo, con il vincolo che deve mantenere un saldo non negativo del conto a sempre.
Non ho specificato se le distribuzioni di ricompensa per braccio sono state scelte da una distribuzione precedente o scelte da un avversario. Entrambe le scelte hanno un senso. La formulazione dell'avversario mi attira di più, ma probabilmente è più difficile progredire. Qui l'avversario sceglie un vettore (D1, D2, .., DN) di distribuzioni. Date le distribuzioni, la politica di bilancio equilibrata ottimale è quella di giocare tutte le armi la cui ricompensa prevista è superiore a $ 1. Sia P l'utile graduale di questa politica onnisciente ottimale. Voglio che la mia politica online minimizzi il rimpianto (cioè la perdita di profitto in un intervallo di tempo T) rispetto a questa politica onnisciente.