Tuttavia, entrambi gli approcci mi sembrano identici, ovvero prevedere la ricompensa massima per un'azione (Q-learning) equivale a prevedere la probabilità di intraprendere l'azione direttamente (PG).
Entrambi i metodi sono teoricamente guidati dal costrutto del processo decisionale di Markov e, di conseguenza, usano notazioni e concetti simili. Inoltre, in semplici ambienti risolvibili, ci si dovrebbe aspettare che entrambi i metodi risultino nelle stesse - o almeno equivalenti - politiche ottimali.
Tuttavia, in realtà sono diversi internamente. Le differenze fondamentali tra gli approcci sta nel modo in cui affrontano la selezione dell'azione, sia durante l'apprendimento, sia come risultato (la politica appresa). In Q-learning, l'obiettivo è imparare una singola azione deterministica da un insieme discreto di azioni trovando il massimo valore. Con i gradienti delle politiche e altre ricerche di politiche dirette, l'obiettivo è quello di imparare una mappa da stato a azione, che può essere stocastica e funzionare in spazi di azione continui.
Di conseguenza, i metodi con gradiente delle politiche possono risolvere problemi che i metodi basati sul valore non possono:
Spazio di azione ampio e continuo. Tuttavia, con metodi basati sul valore, questo può ancora essere approssimato con la discretizzazione - e questa non è una cattiva scelta, poiché la funzione di mappatura nel gradiente delle politiche deve essere in pratica un qualche tipo di approssimatore.
Politiche stocastiche. Un metodo basato sul valore non può risolvere un ambiente in cui la politica ottimale è stocastica che richiede probabilità specifiche, come Forbice / Carta / Pietra. Questo perché non ci sono parametri formabili nell'apprendimento Q che controllano le probabilità di azione, la formulazione del problema nell'apprendimento TD presuppone che un agente deterministico possa essere ottimale.
Tuttavia, metodi basati sul valore come Q-learning presentano anche alcuni vantaggi:
p ( a ∣ s , θ )θ
Velocità. I metodi di apprendimento TD che bootstrap sono spesso molto più veloci nell'apprendimento di una politica rispetto ai metodi che devono puramente campionare dall'ambiente per valutare i progressi.
Esistono altri motivi per cui potresti interessarti di utilizzare l'uno o l'altro approccio:
È possibile che si desideri conoscere il ritorno previsto mentre il processo è in esecuzione, per aiutare altri processi di pianificazione associati all'agente.
La rappresentazione dello stato del problema si presta più facilmente a una funzione di valore o una funzione politica. Una funzione di valore può rivelarsi avere una relazione molto semplice con lo stato e la funzione della politica è molto complessa e difficile da imparare, o viceversa .
Alcuni solutori RL all'avanguardia utilizzano effettivamente entrambi gli approcci insieme, come Actor-Critic. Questo combina punti di forza del valore e metodi di gradiente politico.