Dopo aver letto i risultati di google deepmind sui giochi di Atari , sto cercando di capire q-learning e q-networks, ma sono un po 'confuso. La confusione sorge nel concetto del fattore di sconto. Breve riassunto di ciò che ho capito. Una rete neurale convoluzionale profonda viene utilizzata per stimare il valore del valore atteso ottimale di un'azione. La rete deve ridurre al minimo la funzione di perdita
Lio= Es , a , r[ ( ES'[ y| s,a]-Q(s,a; θio) )2]
dove
ES'[ y| s,a] è
E [ r + γm a xun''Q ( s', a'; θ-io) ∣|s , a ]
Dove
Qè un valore di punteggio cumulativo e
rè il valore di punteggio per l'azione scelta.
s , ae
S', a' sono rispettivamente lo stato e l'azione scelgono al tempo
t e lo stato e l'azione al tempo
t' . La
θ-io sono i pesi della rete alla iterazione precedente. Il
γ è un fattore di sconto che tiene conto della differenza temporale dei valori del punteggio. Lasottoscrizione
io è il passaggio temporale. Il problema qui è capire perché
γ non dipende da
θ .
Dal punto di vista matematico γ è il fattore di sconto e rappresenta la probabilità di raggiungere lo stato S' dallo stato S .
Immagino che la rete effettivamente impari a ridimensionare la base al valore reale di γ , quindi perché non lasciare γ = 1 ?Qγγ= 1