Cos'è l'operatore Bellman nell'apprendimento del rinforzo?


10

In matematica, l' operatore parola può fare riferimento a diversi concetti distinti ma correlati. Un operatore può essere definito come una funzione tra due spazi vettoriali, può essere definito come una funzione in cui dominio e codice sono uguali oppure può essere definito come una funzione da funzioni (che sono vettori) ad altre funzioni (per esempio, l' operatore differenziale ), ovvero una funzione di ordine elevato (se si ha familiarità con la programmazione funzionale).

Cos'è l' operatore Bellman nell'apprendimento di rinforzo (RL)? Perché ne abbiamo bisogno? In che modo l'operatore Bellman è correlato alle equazioni di Bellman in RL?


Alcuni articoli relativi a questo argomento sono Metodi basati su funzioni per la programmazione dinamica su larga scala (di John N. Tsitsiklis e Benjamin Van Roy, 1996), Un'analisi dell'apprendimento delle differenze temporali con approssimazione delle funzioni (di John N. Tsitsiklis e Benjamin Van Roy, 1997) e Least-Squares Policy Iteration (di Michail G. Lagoudakis e Ronald Parr, 2003).
nbro

Alcuni altri documenti correlati che ho trovato sono Processi decisionali di Markov generalizzati: algoritmi di programmazione dinamica e di apprendimento di rinforzo (di Csaba Szepesvári e Michael L. Littman, 1997) eϵ-MDPs: Learning in Varying Environments (by István Szita, Bálint Takács, András Lörincz, 2002).
nbro

Risposte:


11

The notation I'll be using is from two different lectures by David Silver and is also informed by these slides.

The expected Bellman equation is

(1)vπ(s)=aAπ(a|s)(Rsa+γsSPssavπ(s))

If we let

(2)Pssπ=aAπ(a|s)Pssa
and
(3)Rsπ=aAπ(a|s)Rsa
allora possiamo riscrivere (1) come

(4)vπ(s)=Rsπ+γsSPssπvπ(s)

Questo può essere scritto in forma di matrice

(5)[vπ(1)vπ(n)]=[R1πRnπ]+γ[P11πP1nπPn1πPnnπ][vπ(1)vπ(n)]

Or, more compactly,

(6)vπ=Rπ+γPπvπ

Notice that both sides of (6) are n-dimensional vectors. Here n=|S| is the size of the state space. We can then define an operator Tπ:RnRn as

(7)Tπ(v)=Rπ+γPπv

for any vRn. This is the expected Bellman operator.

Similarly, you can rewrite the Bellman optimality equation

(8)v(s)=maxaA(Rsa+γsSPssav(s))

as the Bellman optimality operator

(9)T(v)=maxaA(Ra+γPav)

The Bellman operators are "operators" in that they are mappings from one point to another within the vector space of state values, Rn.

Rewriting the Bellman equations as operators is useful for proving that certain dynamic programming algorithms (e.g. policy iteration, value iteration) converge to a unique fixed point. This usefulness comes in the form of a body of existing work in operator theory, which allows us to make use of special properties of the Bellman operators.

Specifically, the fact that the Bellman operators are contractions gives the useful results that, for any policy π and any initial vector v,

(10)limk(Tπ)kv=vπ

(11)limk(T)kv=v

where vπ is the value of policy π and v is the value of an optimal policy π. The proof is due to the contraction mapping theorem.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.