Qual è Thompson Sampling in parole povere?


14

Non riesco a capire Thompson Sampling e come funziona. Stavo leggendo del Multi Arm Bandit e dopo aver letto l'algoritmo legato alla confidenza superiore, molti testi hanno suggerito che Thompson Sampling funziona meglio di UCB. Che cos'è Thompson Sampling, in parole povere o in parole povere?

Sentiti libero di fornire articoli di riferimento per ulteriore comprensione.

Risposte:


9

Proverò a dare una spiegazione senza matematica. Parte di questa risposta è ripetuta da alcuni punti che ho formulato in una risposta a un'altra domanda sui problemi di MAB .


Il compromesso strategico in problemi di bandito multi-braccio: In problemi di bandito multi-braccio il giocatore gioca un "bandito" ogni round e tenta di massimizzare il suo rendimento totale previsto per un dato numero di round. Il ritorno atteso di ciascuno dei banditi è descritto da alcuni parametri sconosciuti nel problema, e così osservando più risultati in ogni round, otteniamo più informazioni su questi parametri sconosciuti e, quindi, sul ritorno atteso di ciascuno dei banditi . In ogni round di gioco (tranne l'ultimo), il problema MAB comporta un compromesso strategico da parte del giocatore tra due obiettivi:

  • Premi immediati: in ogni round vorrebbe scegliere una distribuzione che gli dia un alto premio atteso in questo round, il che implica una preferenza per le distribuzioni che (attualmente) assegna per avere un alto premio medio;

  • Premi futuri (influenzati dall'acquisizione di informazioni): d' altra parte, vuole affinare la sua conoscenza delle vere ricompense attese ottenendo maggiori informazioni sulle distribuzioni (specialmente quelle che non ha giocato tanto quanto gli altri), in modo che possa migliorare le sue scelte nei turni futuri.

L'importanza relativa di queste due cose determinerà il compromesso e questa importanza relativa è influenzata da una serie di fattori. Ad esempio, se nel problema è presente solo un numero limitato di round rimanenti, l'inferenza per le prove future è relativamente meno preziosa, mentre se esiste un numero elevato di round rimanenti, l'inferenza per i premi futuri è relativamente più preziosa. Quindi il giocatore deve considerare quanto vuole concentrarsi sulla massimizzazione delle ricompense immediate nel round corrente e quanto vuole deviare da questo, per saperne di più sui parametri sconosciuti che determinano la ricompensa attesa di ciascuno dei banditi.


Campionamento Thompson: l'idea di base del campionamento Thompson è che in ogni round, prendiamo la nostra conoscenza esistente delle macchine, che è sotto forma di una credenza posteriore sui parametri sconosciuti, e "campioniamo" i parametri da questa distribuzione posteriore. Questo parametro campionato fornisce una serie di premi attesi per ogni macchina, e ora scommettiamo su quello con il rendimento atteso più alto, sotto quel parametro campionato.

A prima vista , lo schema di campionamento Thompson sembra comportare un tentativo di massimizzare il rendimento atteso immediato in ciascun round (poiché comporta questo passaggio di massimizzazione dopo il campionamento del parametro). Tuttavia, poiché comporta il campionamento casuale del parametro dal posteriore, lo schema comporta un implicitovariazione della massimizzazione del premio attuale, rispetto alla ricerca di ulteriori informazioni. Il più delle volte otterremo un parametro "campione" che si trova da qualche parte nella parte principale del posteriore e la scelta della macchina approssimerà approssimativamente la massimizzazione della ricompensa immediata. Tuttavia, a volte campioneremo casualmente un valore di parametro che è lontano nelle code della distribuzione posteriore, e in quel caso finiremo per scegliere una macchina che non massimizza la ricompensa immediata - cioè, ciò costituirà più di una "ricerca "per aiutare con ricompense future.

Lo schema Thompson ha anche la proprietà piacevole che tendiamo a ridurre la nostra "ricerca" man mano che otteniamo più informazioni, e questo imita il desiderabile compromesso strategico nel problema, dove vogliamo concentrarci di meno sulle ricerche man mano che otteniamo più informazioni. Man mano che giochiamo sempre più round e otteniamo sempre più dati, il posteriore converge più vicino ai valori dei parametri reali e così il "campionamento" casuale nello schema di Thompson diventa più stretto attorno ai valori dei parametri che porteranno alla massimizzazione del ricompensa immediata. Quindi, c'è una tendenza implicita di questo schema ad essere più "orientato alla ricerca" all'inizio con poche informazioni e meno "orientato alla ricerca" in seguito quando ci sono molti dati.

Ora, detto questo, un chiaro svantaggio dello schema di campionamento Thompson è che non tiene conto del numero di round rimanenti nel problema MAB. Questo schema è talvolta formulato sulla base di un gioco con round infiniti, e in questo caso non è un problema. Tuttavia, nei problemi MAB con round finiti, è preferibile tenere conto del numero di round rimanenti al fine di ridurre la "ricerca" al diminuire del numero di round futuri. (E in particolare, il gioco ottimale nell'ultimo round è quello di ignorare completamente le ricerche e puntare solo sul bandito con il più alto ritorno atteso posteriore.) Lo schema Thompson non lo fa, quindi giocherà a giochi a round finito in un certo modo questo è chiaramente non ottimale in alcuni casi.


1
Vorrei poter dare questa risposta più pollici in su. Vorrei probabilmente aggiungere come aggiornerei i posteriori - ad esempio se i posteriori fossero rappresentati come distribuzioni normali - come vengono calcolati gli aggiornamenti per la deviazione media e standard dei posteriori. Lo dico perché non mi conosco
Mellow

5

Ci proverò e spero che ti piaccia! Di seguito sono riportate alcune formule che potrebbero spaventarti. Non lo spero, perché farò del mio meglio per spiegarli nel modo più semplice possibile.

Queste sono le due formule:

  • P(r|θ,un',X)
  • E il posteriore: P(θ|D)

TL; DR

Thompson Sampling ti consente

  1. Scegli un parametro del modello casuale tra tutti i parametri del modello che ritieni possibili.
  2. Agire una volta in base a quel particolare parametro del modello.
  3. Osserva la ricompensa che ottieni con quel particolare parametro del modello.
  4. Impara da questa nuova esperienza e aggiorna la tua convinzione sui possibili parametri del modello.

Probabilità??

La probabilità è qualcosa che definisce la probabilità delle cose. In questo caso la probabilità dice quanto è probabile che riceviamo una ricompensar se gioca azione un' nel contesto X. Ad esempio, se piove (contesto!) E prendi un ombrello (azione!) Rimani asciutto (ricompensa! :)). D'altra parte, se non piove (contesto!) E prendi un ombrello (azione!) Devi portare un peso extra (ricompensa negativa! :(). Quindi la probabilità è la cosa centrale che vuoi capire. Se sai tutto sulla probabilità, è facile agire in modo ottimale.

Che dire di quello strano cerchio ??

Come avrai notato, non ho scritto nulla su quello strano cerchio θche si chiama theta. (I matematici hanno l'abitudine di indicare quali parti sono le più difficili dando loro lettere greche, rendendo ancora più difficile la comprensione). Questoθrappresenta il parametro del modello. Questi parametri vengono utilizzati quando la relazione tra il contesto + le azioni e la ricompensa è più difficile. Ad esempio, un parametro del modello potrebbe essere l'importo della tua ricompensa se una pioggia di 1 mm cade sulla tua testa. Un altro parametro del modello potrebbe indicare quanto diminuisce la tua ricompensa se prendi un ombrello. Ho appena detto che la probabilità è la cosa centrale che vuoi capire; e centrale per la probabilità sono i parametri del modello. Se conosci i parametri del modelloθ, sai come il contesto + le azioni si relazionano alla ricompensa ed è facile agire in modo ottimale.

Quindi, come possiamo conoscere questi parametri del modello in modo tale da ottenere la massima ricompensa ??

Questa è la domanda essenziale per il problema dei banditi multi-armati. In realtà, ha due parti. Vuoi conoscere i parametri del modello proprio esplorando tutti i diversi tipi di azioni in contesti diversi. Ma se sai già quale azione è buona per un contesto specifico, vuoi sfruttare quell'azione e ottenere la maggior ricompensa possibile. Quindi, se non sei sicuro dei parametri del tuo modelloθpotresti voler fare qualche esplorazione extra. Se sei abbastanza sicuro dei nostri parametri del modelloθ, sei anche abbastanza sicuro di quale azione intraprendere. Questo è noto come il compromesso tra esplorazione e sfruttamento.

Non hai detto nulla di questo posteriore

La chiave di questo comportamento ottimale è la (non) certezza dei parametri del modello θ. E il posteriore dice esattamente questo: date tutte le ricompense precedenti che abbiamo ottenuto dalle azioni precedenti in contesti precedenti, quanto ne saiθ. Ad esempio, se non sei mai stato fuori, non sai quanto diventi infelice quando la pioggia cade sulla tua testa. In altre parole, sei molto incerto sul parametro del modello di infelicità-quando-pioggia-sulla-testa. Se a volte sei stato sotto una pioggia, con e senza un ombrello, puoi iniziare a imparare qualcosa su questo oscuro parametro del modello.

Cosa suggerisce di fare Thomson Sampling con tutte queste incertezze ??

Thomson Sampling suggerisce qualcosa di molto semplice: basta scegliere un parametro casuale dal proprio posteriore, agire e osservare cosa succede. Ad esempio, quando non sei mai stato fuori prima, il parametro infelicità-quando-pioggia-sulla-testa può essere qualsiasi cosa. Quindi scegliamo solo uno, supponiamo che diventiamo davvero infelici quando la pioggia cade sulla nostra testa. Vediamo che sta piovendo (contesto), quindi prendiamo un ombrello (azione) perché il nostro parametro del modello ci dice che è così che possiamo ottenere la massima ricompensa. E in effetti, osservi che diventi leggermente scontroso camminando sotto la pioggia con un ombrello ma non sei davvero infelice. Da ciò apprendiamo che pioggia + ombrello è scontroso. La prossima volta che piove raccogli di nuovo una convinzione casuale su ciò che accade quando la pioggia cade sulla tua testa. Questa volta potrebbe essere che non ti disturbi affatto. Tuttavia, una volta che sei a metà strada verso la tua destinazione ti stai tormentando e scopri che la pioggia senza ombrello è davvero brutta. Ciò riduce la tua incertezza sull'infelicità-quando-pioggia-a-testa, perché ora sai che è probabilmente alta.

Sembra così semplice !!

Sì, non è così complesso. La parte difficile è il campionamento da un parametro del modello posteriore. È difficile ottenere e mantenere una distribuzione su tutti i parametri del modello, adatta anche al problema specifico. Ma ... è sicuramente fattibile :).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.