Nel documento che introduce DQN " Playing Atari con Deep Reinforcement Learning ", menziona:
Si noti che quando si apprende mediante il replay dell'esperienza, è necessario apprendere off-policy (poiché i nostri parametri attuali sono diversi da quelli utilizzati per generare il campione), il che motiva la scelta del Q-learning.
Non ho capito bene cosa significhi. Che cosa succede se utilizziamo SARSA e ricordiamo l'azione a'per l'azione da intraprendere s'nella nostra memoria, quindi campioniamo i batch da essa e aggiorniamo Q come abbiamo fatto in DQN? E i metodi critico-attore (A3C, per specifici) possono usare il replay dell'esperienza? Se no, perché?
(s, a, r, s')ed estraggo questa esperienza per la riproduzione; Supponiamo ora che il mio attuale politica dice che si dovrebbe prenderea'sus', quindi marchio miQ(s, a)dovrebbe esserer + Q(s', a')e fare la discesa del gradiente. Penso che sto facendo esperienza di riproduzione su politica. C'è qualche problema con il processo?