Nel documento che introduce DQN " Playing Atari con Deep Reinforcement Learning ", menziona:
Si noti che quando si apprende mediante il replay dell'esperienza, è necessario apprendere off-policy (poiché i nostri parametri attuali sono diversi da quelli utilizzati per generare il campione), il che motiva la scelta del Q-learning.
Non ho capito bene cosa significhi. Che cosa succede se utilizziamo SARSA e ricordiamo l'azione a'
per l'azione da intraprendere s'
nella nostra memoria, quindi campioniamo i batch da essa e aggiorniamo Q come abbiamo fatto in DQN? E i metodi critico-attore (A3C, per specifici) possono usare il replay dell'esperienza? Se no, perché?
(s, a, r, s')
ed estraggo questa esperienza per la riproduzione; Supponiamo ora che il mio attuale politica dice che si dovrebbe prenderea'
sus'
, quindi marchio miQ(s, a)
dovrebbe esserer + Q(s', a')
e fare la discesa del gradiente. Penso che sto facendo esperienza di riproduzione su politica. C'è qualche problema con il processo?