Bandito multi armato per la distribuzione di ricompense generali

Sto lavorando a un problema di bandito multi-armato in cui non abbiamo informazioni sulla distribuzione dei premi.

Ho trovato molti articoli che garantiscono limiti di rimpianto per una distribuzione con limite noto e per distribuzioni generali con supporto in [0,1].

Vorrei scoprire se esiste un modo per ottenere buoni risultati in un ambiente in cui la distribuzione dei premi non ha garanzie sul suo supporto. Sto cercando di calcolare un limite di tolleranza non parametrico e utilizzo quel numero per ridimensionare la distribuzione della ricompensa in modo da poter utilizzare l'algoritmo 2 specificato in questo documento ( http://jmlr.org/proceedings/papers/v23/agrawal12/agrawal12.pdf ). Qualcuno pensa che questo approccio funzionerà?

In caso contrario, qualcuno può indicarmi il posto giusto?

Grazie mille!

references multiarmed-bandit

— ospite
fonte

$\mathcal{O}(\log(T))$ $\epsilon$

Anche il semplice algoritmo di campionamento Thompson che menzioni richiede premi distribuiti da Bernoulli, e anche quello ha impiegato 80 anni per dimostrare un rimpianto logaritmico legato!

$[0,1]$ $S$ $S$ $S:=2S$

Inoltre, l'algoritmo di campionamento Thompson che menzioni richiede prove di Bernoulli, quindi non puoi utilizzare premi continui arbitrari. Potresti adattare una distribuzione posteriore gaussiana invece di una beta, ma questo è un po 'sensibile alla tua scelta del precedente, quindi potresti voler impostarlo per essere molto piatto. Se non stai cercando di dimostrare nulla sulla tua implementazione, probabilmente funzionerà abbastanza bene.

— fairidox
fonte

Grazie mille per la risposta! Lo apprezzo molto! Ho avuto una domanda però. Penso che l'algoritmo 2 sulla carta (in cima a pagina 39.4) che ho citato non richieda nulla sulla distribuzione della ricompensa MA il fatto che il suo supporto sia in [0,1]. Forse stavi guardando l'algoritmo 1?

— ospite

Sì, bello, un trucco piuttosto interessante per convertire valori reali in campioni di Bernoulli, grazie per aver sottolineato che il dettaglio mi era sfuggito. In ogni caso, come dici tu, hai ancora bisogno di variabili limitate, potresti farlo con il doppio trucco economico che ho menzionato e utilizzare questa versione del campionamento Thompson. Ma potresti essere meglio di formulare un metodo che utilizza un posteriore gaussiano.

— fairidox,

Esaminerò meglio il metodo posteriore gaussiano, ma cosa intendi per "piatto" in termini di gaussiano? Suppongo che corrisponderebbe a qualcosa come una Beta (1,1) (uniforme) prima, giusto?

— ospite

giusto, ma ovviamente non puoi avere un'uniforme prima di un dominio illimitato. Quindi, se si dispone di un modello posteriore gaussiano, probabilmente si avrebbe un precedente gaussiano, quindi in genere si desidera averlo il più "piatto" o non informativo possibile. Questo generalmente significa aumentare la varianza quanto più in alto si può sopportare. Non sono un esperto, ma esiste un intero campo di studio su come costruire priori non informativi e potenzialmente impropri che potresti voler esaminare. Inoltre, se hai ricompense strettamente positive, potresti prendere in considerazione un modello diverso.

— fairidox,