Il problema di Warren Buffett


19

Ecco un'astrazione di un problema di apprendimento / bandito online su cui ho lavorato in estate. Non ho mai visto un problema come questo prima e sembra abbastanza interessante. Se conoscete qualche lavoro correlato, apprezzerei i riferimenti.

Il problema L'impostazione è quella dei banditi multi-armati. Hai N braccia. Ogni braccio i ha una distribuzione di probabilità sconosciuta ma fissa sui premi che possono essere guadagnati giocando. Per concretezza, supponiamo che ogni braccio mi paga premiare $ 10 con probabilità p [i] e premiare $ 0 con i prob. 1-p [i] .

In ogni round t selezioni un set S [t] di armi da giocare. Per ogni braccio selezionato, paghi una commissione di $ 1 in anticipo. Per ogni braccio selezionato, raccogli una ricompensa che viene estratta dalla distribuzione (sconosciuta) della probabilità di ricompensa di quel braccio. Tutti i premi vengono accreditati sul tuo conto bancario e tutte le commissioni vengono detratte da tale conto. Inoltre, ricevi un credito di $ 1 all'inizio di ogni iterazione.

Il problema è sviluppare una politica per selezionare un sottoinsieme di armi da giocare in ogni iterazione per massimizzare il profitto (cioè premi meno le commissioni per giocare) su un orizzonte abbastanza lungo, con il vincolo che deve mantenere un saldo non negativo del conto a sempre.

Non ho specificato se le distribuzioni di ricompensa per braccio sono state scelte da una distribuzione precedente o scelte da un avversario. Entrambe le scelte hanno un senso. La formulazione dell'avversario mi attira di più, ma probabilmente è più difficile progredire. Qui l'avversario sceglie un vettore (D1, D2, .., DN) di distribuzioni. Date le distribuzioni, la politica di bilancio equilibrata ottimale è quella di giocare tutte le armi la cui ricompensa prevista è superiore a $ 1. Sia P l'utile graduale di questa politica onnisciente ottimale. Voglio che la mia politica online minimizzi il rimpianto (cioè la perdita di profitto in un intervallo di tempo T) rispetto a questa politica onnisciente.


Sei sicuro che la migliore politica sia giocare tutte le armi la cui ricompensa prevista è superiore a $ 1 in ogni round? Se hai il rigoroso vincolo che devi mantenere un saldo del conto non negativo in ogni momento, potrebbero esserci dei round in cui non ti è nemmeno permesso di giocare.
Matthias,

Quindi non conosci le probabilità di ricompensa, ma puoi distinguere il profitto da ogni singolo braccio?
David Thornley,

Non conosci le probabilità e non conosci i premi previsti. Una politica "ottimale" onnisciente con cui voglio confrontarmi può tuttavia giocare tutte le armi con una ricompensa maggiore di 1 perché è onnisciente.
Martin Pál,

1
Farò un ipotesi che dopo giri è possibile ottenere il vostro reddito previsto a meno di un fattore costante della ottimale, dopo di che il problema sembra aver perso gran parte del suo carattere insolito. Un limite inferiore di Ω ( N ) segue da un'istanza in cui solo un braccio ha un payoff diverso da zero. Non vedo immediatamente un limite superiore. Θ(N)Ω(N)
Warren Schudy,

Correzione: dopo giri probabilmente non può garantire per ottenere meno di un fattore costante di reddito ottimale. Probabilmente puoi comunque ottenere quella garanzia relativa al reddito disponibile dalle armi che si aspettano un ritorno di almeno 2 dollari. Θ(N)
Warren Schudy,

Risposte:


13

Immagino che ci siano molti possibili approcci a questo problema (molti dei quali sono sicuro che tu abbia preso in considerazione) - ecco alcune idee / riferimenti.

  • Potresti giocare a questo come giochi paralleli a braccio singolo paralleli indipendenti, decidendo di tirare o non tirare ogni braccio in modo indipendente. Questo dovrebbe funzionare particolarmente bene se i premi sono distribuiti in modo indipendente.N
  • Consenti a ogni set di armi di essere un nuovo braccio ed eseguire un algoritmo di tipo Exp3. Questo dà un rimpianto - non così grande.O(2N/2T1/2)
  • In un prossimo documento del NIPS 2010, Saten Kale, Rob Schapire e io consideriamo il caso in cui si gioca una lista di armi contemporaneamente. Nel nostro lavoro, tuttavia, la dimensione dell'ardesia è fissa. Questo documento considera anche un problema simile. Un altro lavoro simile è apparso in ALT 2010. Forse alcune idee vengono trasferite.
  • 2NO(NT)O(2NT) tempo di esecuzione.

MODIFICA di seguito:

01(n-1)/nTT(n-1)T/n e non puoi sperare in un'alta probabilità legata affatto.

B02B1/B


Ciao Lev, grazie per i suggerimenti. Concordo sul fatto che se avessi un budget iniziale illimitato a suonare N banditi a braccio singolo paralleli risolverebbe il problema. Il vincolo di bilancio introduce tuttavia l'accoppiamento tra le armi e rende le cose interessanti. In particolare, nel primo passo hai solo un budget per giocare un braccio. Nel secondo passaggio puoi giocare con 11 braccia o solo 1 braccio, a seconda che tu abbia avuto fortuna nel primo passo e così via. Quindi è importante trovare presto un gruppo di armi redditizie che poi usi per ulteriori esplorazioni.
Martin Pál,

2
Non avevo capito che ci fosse un budget iniziale (ora capisco la parte "saldo non negativo", ma forse puoi renderlo più chiaro nella domanda?) - questo rende il problema più interessante. Anche la versione "contestuale" o di esperti potrebbe essere divertente da considerare. Sfortunatamente, non conosco riferimenti più rilevanti per questo problema.
Lev Reyzin

Se la formulazione del problema è corretta, guadagni $ 1 in più ogni round. Martin, potresti forse chiarire la domanda?
Jukka Suomela,

Penso che tu guadagni tutto ciò che una macchina paga se la giochi e vinci e perdi $ 1 ogni volta che decidi di giocare.
Lev Reyzin
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.