3
Perché il tasso di sconto nell'algoritmo REINFORCE appare due volte?
Stavo leggendo il libro Reinforcement Learning: An Introduction di Richard S. Sutton e Andrew G. Barto (bozza completa, 5 novembre 2017). A pagina 271, viene presentato lo pseudo-codice per il metodo episodico Monte-Carlo Policy-Gradient. Guardando questo pseudo-codice non riesco a capire perché sembra che il tasso di sconto appaia 2 …