Il significato del fattore di sconto sull'apprendimento per rinforzo


10

Dopo aver letto i risultati di google deepmind sui giochi di Atari , sto cercando di capire q-learning e q-networks, ma sono un po 'confuso. La confusione sorge nel concetto del fattore di sconto. Breve riassunto di ciò che ho capito. Una rete neurale convoluzionale profonda viene utilizzata per stimare il valore del valore atteso ottimale di un'azione. La rete deve ridurre al minimo la funzione di perdita

Li=Es,a,r[(Es[y|s,a]Q(s,a;θi))2]
doveEs[y|s,a] è
E[r+γmaxaQ(s,a;θi)|s,a]
DoveQè un valore di punteggio cumulativo erè il valore di punteggio per l'azione scelta. s,aes,a sono rispettivamente lo stato e l'azione scelgono al tempot e lo stato e l'azione al tempot . Laθi sono i pesi della rete alla iterazione precedente. Ilγ è un fattore di sconto che tiene conto della differenza temporale dei valori del punteggio. Lasottoscrizionei è il passaggio temporale. Il problema qui è capire perchéγ non dipende daθ .

Dal punto di vista matematico γ è il fattore di sconto e rappresenta la probabilità di raggiungere lo stato s dallo stato s .

Immagino che la rete effettivamente impari a ridimensionare la base al valore reale di γ , quindi perché non lasciare γ = 1 ?Qγγ=1

Risposte:


6

Il fattore di sconto non rappresenta la probabilità di raggiungere lo stato s dallo stato s . Sarebbe p(s|s,a) , che non viene utilizzato in Q-Learning, poiché è privo di modelli (solo i metodi di apprendimento di rinforzo basati su modelli utilizzano tali probabilità di transizione). Il fattore di sconto è un iperparametro sintonizzato dall'utente che rappresenta quanti eventi futuri perdono il loro valore in base a quanto sono lontani nel tempo. Nella formula indicata, stai dicendo che il valore per il tuo stato attualeγysè la ricompensa istantanea per questo stato più ciò che ti aspetti di ricevere in futuro a partire da . Ma quel termine futuro deve essere scontato, perché i premi futuri potrebbero non (se ) avere lo stesso valore di ricevere un premio in questo momento (proprio come preferiamo ricevere $ 100 ora anziché $ 100 domani). Sta a te scegliere quanto vuoi deprezzare i tuoi premi futuri (dipende dal problema). Un fattore di sconto pari a 0 significherebbe che ti interessano solo i premi immediati. Maggiore è il tuo fattore di sconto, più le tue ricompense si propagheranno nel tempo.sγ<1

Ti suggerisco di leggere il libro di Sutton & Barto prima di provare Deep-Q al fine di apprendere l'apprendimento di rinforzo puro al di fuori del contesto delle reti neurali, il che potrebbe confonderti.


Grazie per la tua risposta, ma ho ancora dei dubbi. Sto pensando ad alta voce. Immagina ad ogni passo che ricevi un punteggio di e devi pagare per iniziare a giocare. Come posso calcolare il valore atteso? Bene perché stai aggiungendo valori di in momenti diversi in futuro, non è vero? c E v = + i = 1 γ i d - c ddc
Ev=i=1+γidc
d
emanuele,

Bene, romperò anche se qual è il valore corretto per ? Il valore corretto per è il valore che mi consente di compensare tra i premi presenti e futuri ed è . è la probabilità di sopravvivere al passaggio ed è questo il motivo per cui . Il segno di spunta è dove sono probabilità di sopravvivere ad ogni passo ed è la durata della vita prevista. γgammaγ=ppt0γ1p
dγ1γ=c
γgammaγ=ppt0γ1τp1-p=ττ
emanuele,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.