Qual è la relazione tra Q-learning e metodi di gradienti politici?


21

Per quanto ho capito, Q-learning e gradienti politici (PG) sono i due principali approcci utilizzati per risolvere i problemi di RL. Mentre il Q-learning mira a prevedere la ricompensa di una determinata azione intrapresa in un determinato stato, i gradienti politici predicono direttamente l'azione stessa.

Tuttavia, entrambi gli approcci mi sembrano identici, ovvero prevedere la massima ricompensa per un'azione (Q-learning) equivale a prevedere la probabilità di intraprendere l'azione direttamente (PG). La differenza è nel modo in cui la perdita viene propagata all'indietro?

Risposte:


20

Tuttavia, entrambi gli approcci mi sembrano identici, ovvero prevedere la ricompensa massima per un'azione (Q-learning) equivale a prevedere la probabilità di intraprendere l'azione direttamente (PG).

Entrambi i metodi sono teoricamente guidati dal costrutto del processo decisionale di Markov e, di conseguenza, usano notazioni e concetti simili. Inoltre, in semplici ambienti risolvibili, ci si dovrebbe aspettare che entrambi i metodi risultino nelle stesse - o almeno equivalenti - politiche ottimali.

Tuttavia, in realtà sono diversi internamente. Le differenze fondamentali tra gli approcci sta nel modo in cui affrontano la selezione dell'azione, sia durante l'apprendimento, sia come risultato (la politica appresa). In Q-learning, l'obiettivo è imparare una singola azione deterministica da un insieme discreto di azioni trovando il massimo valore. Con i gradienti delle politiche e altre ricerche di politiche dirette, l'obiettivo è quello di imparare una mappa da stato a azione, che può essere stocastica e funzionare in spazi di azione continui.

Di conseguenza, i metodi con gradiente delle politiche possono risolvere problemi che i metodi basati sul valore non possono:

  • Spazio di azione ampio e continuo. Tuttavia, con metodi basati sul valore, questo può ancora essere approssimato con la discretizzazione - e questa non è una cattiva scelta, poiché la funzione di mappatura nel gradiente delle politiche deve essere in pratica un qualche tipo di approssimatore.

  • Politiche stocastiche. Un metodo basato sul valore non può risolvere un ambiente in cui la politica ottimale è stocastica che richiede probabilità specifiche, come Forbice / Carta / Pietra. Questo perché non ci sono parametri formabili nell'apprendimento Q che controllano le probabilità di azione, la formulazione del problema nell'apprendimento TD presuppone che un agente deterministico possa essere ottimale.

Tuttavia, metodi basati sul valore come Q-learning presentano anche alcuni vantaggi:

  • p(un'|S,θ)θ

  • Velocità. I metodi di apprendimento TD che bootstrap sono spesso molto più veloci nell'apprendimento di una politica rispetto ai metodi che devono puramente campionare dall'ambiente per valutare i progressi.

Esistono altri motivi per cui potresti interessarti di utilizzare l'uno o l'altro approccio:

  • È possibile che si desideri conoscere il ritorno previsto mentre il processo è in esecuzione, per aiutare altri processi di pianificazione associati all'agente.

  • La rappresentazione dello stato del problema si presta più facilmente a una funzione di valore o una funzione politica. Una funzione di valore può rivelarsi avere una relazione molto semplice con lo stato e la funzione della politica è molto complessa e difficile da imparare, o viceversa .

Alcuni solutori RL all'avanguardia utilizzano effettivamente entrambi gli approcci insieme, come Actor-Critic. Questo combina punti di forza del valore e metodi di gradiente politico.


Cosa intendi quando dici che l'attore-critico unisce la forza di entrambi i metodi? Secondo la mia comprensione, l'attore valuta l'azione migliore da intraprendere in base allo stato e il critico valuta il valore di quello stato, quindi alimenta la ricompensa per l'attore. Considerarli come un'unica unità "Politica" mi sembra ancora un gradiente politico. Perché in realtà è come l'apprendimento Q?
Gulzar,

1
@Guizar: il critico impara usando un metodo basato sul valore (ad es. Q-learning). Quindi, nel complesso, l'attore-critico è una combinazione di un metodo di valore e un metodo di gradiente politico e trae vantaggio dalla combinazione. Un notevole miglioramento rispetto al PG "vaniglia" è che i gradienti possono essere valutati su ogni passaggio, anziché alla fine di ogni episodio. Se stai cercando una risposta più dettagliata su questo argomento, dovresti porre una domanda sul sito.
Neil Slater,

@Guizar: In realtà gratto (ad esempio Q-learning) mentre mi confondo tra il vantaggio attore-critico (che regola la linea di base in base ai valori di azione) e il critico che di solito è un valore di stato più semplice. Tuttavia, per il resto la mia descrizione è sempre la stessa, il critico viene solitamente aggiornato utilizzando metodi TD basati sul valore, di cui l'apprendimento Q è anche un esempio.
Neil Slater,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.