2
Quando sono preferiti i metodi Monte Carlo rispetto a quelli con differenza temporale?
Ultimamente ho fatto molte ricerche sull'apprendimento per rinforzo. Ho seguito l' apprendimento di rinforzo di Sutton & Barto : un'introduzione per la maggior parte di questo. So quali sono i processi decisionali di Markov e come l'apprendimento della programmazione dinamica (DP), Monte Carlo e differenza temporale (DP) può essere utilizzato …