Ci proverò e spero che ti piaccia! Di seguito sono riportate alcune formule che potrebbero spaventarti. Non lo spero, perché farò del mio meglio per spiegarli nel modo più semplice possibile.
Queste sono le due formule:
- P( r | θ , a , x )
- E il posteriore: P( θ | D )
TL; DR
Thompson Sampling ti consente
- Scegli un parametro del modello casuale tra tutti i parametri del modello che ritieni possibili.
- Agire una volta in base a quel particolare parametro del modello.
- Osserva la ricompensa che ottieni con quel particolare parametro del modello.
- Impara da questa nuova esperienza e aggiorna la tua convinzione sui possibili parametri del modello.
Probabilità??
La probabilità è qualcosa che definisce la probabilità delle cose. In questo caso la probabilità dice quanto è probabile che riceviamo una ricompensar se gioca azione un' nel contesto X. Ad esempio, se piove (contesto!) E prendi un ombrello (azione!) Rimani asciutto (ricompensa! :)). D'altra parte, se non piove (contesto!) E prendi un ombrello (azione!) Devi portare un peso extra (ricompensa negativa! :(). Quindi la probabilità è la cosa centrale che vuoi capire. Se sai tutto sulla probabilità, è facile agire in modo ottimale.
Che dire di quello strano cerchio ??
Come avrai notato, non ho scritto nulla su quello strano cerchio θche si chiama theta. (I matematici hanno l'abitudine di indicare quali parti sono le più difficili dando loro lettere greche, rendendo ancora più difficile la comprensione). Questoθrappresenta il parametro del modello. Questi parametri vengono utilizzati quando la relazione tra il contesto + le azioni e la ricompensa è più difficile. Ad esempio, un parametro del modello potrebbe essere l'importo della tua ricompensa se una pioggia di 1 mm cade sulla tua testa. Un altro parametro del modello potrebbe indicare quanto diminuisce la tua ricompensa se prendi un ombrello. Ho appena detto che la probabilità è la cosa centrale che vuoi capire; e centrale per la probabilità sono i parametri del modello. Se conosci i parametri del modelloθ, sai come il contesto + le azioni si relazionano alla ricompensa ed è facile agire in modo ottimale.
Quindi, come possiamo conoscere questi parametri del modello in modo tale da ottenere la massima ricompensa ??
Questa è la domanda essenziale per il problema dei banditi multi-armati. In realtà, ha due parti. Vuoi conoscere i parametri del modello proprio esplorando tutti i diversi tipi di azioni in contesti diversi. Ma se sai già quale azione è buona per un contesto specifico, vuoi sfruttare quell'azione e ottenere la maggior ricompensa possibile. Quindi, se non sei sicuro dei parametri del tuo modelloθpotresti voler fare qualche esplorazione extra. Se sei abbastanza sicuro dei nostri parametri del modelloθ, sei anche abbastanza sicuro di quale azione intraprendere. Questo è noto come il compromesso tra esplorazione e sfruttamento.
Non hai detto nulla di questo posteriore
La chiave di questo comportamento ottimale è la (non) certezza dei parametri del modello θ. E il posteriore dice esattamente questo: date tutte le ricompense precedenti che abbiamo ottenuto dalle azioni precedenti in contesti precedenti, quanto ne saiθ. Ad esempio, se non sei mai stato fuori, non sai quanto diventi infelice quando la pioggia cade sulla tua testa. In altre parole, sei molto incerto sul parametro del modello di infelicità-quando-pioggia-sulla-testa. Se a volte sei stato sotto una pioggia, con e senza un ombrello, puoi iniziare a imparare qualcosa su questo oscuro parametro del modello.
Cosa suggerisce di fare Thomson Sampling con tutte queste incertezze ??
Thomson Sampling suggerisce qualcosa di molto semplice: basta scegliere un parametro casuale dal proprio posteriore, agire e osservare cosa succede. Ad esempio, quando non sei mai stato fuori prima, il parametro infelicità-quando-pioggia-sulla-testa può essere qualsiasi cosa. Quindi scegliamo solo uno, supponiamo che diventiamo davvero infelici quando la pioggia cade sulla nostra testa. Vediamo che sta piovendo (contesto), quindi prendiamo un ombrello (azione) perché il nostro parametro del modello ci dice che è così che possiamo ottenere la massima ricompensa. E in effetti, osservi che diventi leggermente scontroso camminando sotto la pioggia con un ombrello ma non sei davvero infelice. Da ciò apprendiamo che pioggia + ombrello è scontroso. La prossima volta che piove raccogli di nuovo una convinzione casuale su ciò che accade quando la pioggia cade sulla tua testa. Questa volta potrebbe essere che non ti disturbi affatto. Tuttavia, una volta che sei a metà strada verso la tua destinazione ti stai tormentando e scopri che la pioggia senza ombrello è davvero brutta. Ciò riduce la tua incertezza sull'infelicità-quando-pioggia-a-testa, perché ora sai che è probabilmente alta.
Sembra così semplice !!
Sì, non è così complesso. La parte difficile è il campionamento da un parametro del modello posteriore. È difficile ottenere e mantenere una distribuzione su tutti i parametri del modello, adatta anche al problema specifico. Ma ... è sicuramente fattibile :).