Sto lavorando a un problema di bandito multi-armato in cui non abbiamo informazioni sulla distribuzione dei premi.
Ho trovato molti articoli che garantiscono limiti di rimpianto per una distribuzione con limite noto e per distribuzioni generali con supporto in [0,1].
Vorrei scoprire se esiste un modo per ottenere buoni risultati in un ambiente in cui la distribuzione dei premi non ha garanzie sul suo supporto. Sto cercando di calcolare un limite di tolleranza non parametrico e utilizzo quel numero per ridimensionare la distribuzione della ricompensa in modo da poter utilizzare l'algoritmo 2 specificato in questo documento ( http://jmlr.org/proceedings/papers/v23/agrawal12/agrawal12.pdf ). Qualcuno pensa che questo approccio funzionerà?
In caso contrario, qualcuno può indicarmi il posto giusto?
Grazie mille!