Il problema principale con TD learning e DP è che i loro aggiornamenti dei passi sono distorti sulle condizioni iniziali dei parametri di apprendimento. Il processo di bootstrap in genere aggiorna una funzione o una ricerca Q (s, a) su un valore successivo Q (s ', a') usando qualunque sia la stima corrente in quest'ultima. Chiaramente all'inizio dell'apprendimento queste stime non contengono informazioni provenienti da premi reali o transizioni di stato.
Se l'apprendimento funziona come previsto, la distorsione si ridurrà asintoticamente su più iterazioni. Tuttavia, la distorsione può causare problemi significativi, in particolare per i metodi off-policy (ad es. Q Learning) e quando si utilizzano approssimatori di funzioni. È probabile che questa combinazione non riesca a convergere da essere chiamata la terribile triade di Sutton & Bart.
I metodi di controllo Monte Carlo non soffrono di questo pregiudizio, poiché ogni aggiornamento viene effettuato utilizzando un vero campione di ciò che dovrebbe essere Q (s, a). Tuttavia, i metodi Monte Carlo possono soffrire di un'elevata varianza, il che significa che sono necessari più campioni per ottenere lo stesso grado di apprendimento rispetto al TD.
In pratica, l'apprendimento del TD sembra apprendere in modo più efficiente se i problemi con la triade mortale possono essere superati. I risultati recenti che utilizzano il replay dell'esperienza e le copie "congelate" degli stimatori forniscono soluzioni alternative che risolvono i problemi, ad esempio in questo modo è stato creato lo studente DQN per i giochi Atari.
C'è anche una via di mezzo tra TD e Monte Carlo. È possibile costruire un metodo generalizzato che combina traiettorie di diverse lunghezze - dal TD a singolo passaggio alle serie complete di episodi a Monte Carlo - e combinarle. La variante più comune di questo è l' apprendimento TD ( ), in cui è un parametro compreso tra (in pratica apprendimento TD a passaggio singolo) e (in effetti apprendimento Monte Carlo, ma con una bella funzionalità che può essere utilizzata in modo continuo i problemi). In genere, un valore compreso tra e rende l'agente di apprendimento più efficiente, sebbene come molti iperparametri, il valore migliore da utilizzare dipende dal problema.λ 0 1 0 1λλ0101
Se stai usando un metodo basato sul valore (al contrario di uno basato sulla politica), l'apprendimento TD è generalmente più usato nella pratica, o un metodo di combinazione TD / MC come TD (λ) può essere ancora migliore.
In termini di "vantaggio pratico" per MC? L'apprendimento di Monte Carlo è concettualmente semplice, robusto e facile da implementare, sebbene spesso più lento di TD. In genere non lo userei per un motore di controller di apprendimento (a meno che non abbia fretta di implementare qualcosa per un ambiente semplice), ma lo prenderei seriamente in considerazione per la valutazione delle politiche al fine di confrontare più agenti, ad esempio perché è un misura imparziale, che è importante per i test.