Perché esiste sempre almeno una politica migliore o uguale a tutte le altre politiche?

14

Risolvere un compito di apprendimento di rinforzo significa, approssimativamente, trovare una politica che ottenga molti premi nel lungo periodo. Per gli MDP finiti, possiamo definire con precisione una politica ottimale nel modo seguente. Le funzioni di valore definiscono un ordinamento parziale rispetto alle politiche. Una politica $\pi$ è definito per essere maggiore o uguale ad una politica $\pi'$ se rendimento atteso è maggiore o uguale a quella di $\pi'$ , per tutti gli stati. In altre parole, $\pi \geq \pi'$ se e solo se $v_\pi(s) \geq v_{\pi'}(s)$ , per tutte le $s \in \mathcal{S}$ . Esiste sempre almeno una politica migliore o uguale a tutte le altre politiche. Questa è una politica ottimale.

markov-process reinforcement-learning

— sh1ng
fonte

Una prova molto dettagliata (che utilizza il teorema del punto fisso di Banach) appare nel capitolo 6.2 di "Processi decisionali di Markov" di Puterman.

— Togh

3

Appena passato la parte citata, lo stesso paragrafo in realtà ti dice qual è questa politica: è quella che prende la migliore azione in ogni stato. In un MDP, l'azione che intraprendiamo in uno stato non influenza i premi per le azioni intraprese in altri, quindi possiamo semplicemente massimizzare la politica stato per stato.

— Don Reba
fonte

Questa risposta non è completamente sbagliata? Come si può dire che l'ottimizzazione della politica stato per stato porta a una politica ottimale. Se ottimizzo sopra lo stato

S_{t}

$S_t$ e mi ci vuole

S_{t + 1}

$S_{t+1}$ e quindi l'ottimizzazione a

S_{t + 1}

$S_{t+1}$ porta a una funzione di valore ottimale

V_{t + 1}

$V_{t+1}$ ma c'è un'altra politica in cui

S_{t}

$S_t$ conduce in modo subottimale a

S_{l}

$S_l$ e l'ottimale la funzione valore di

S_{l}

$S_l$ è maggiore di

V_{t + 1}

$V_{t+1}$ . Come puoi escluderlo da un'analisi così superficiale?

— MiloMinderbinder

@MiloMinderbinder Se la politica ottimale in

S_{t}

$S_t$ è scegliere

S_{t + 1}

$S_{t+1}$ , il valore di

S_{t + 1}

$S_{t+1}$ è superiore al valore di

S_{l}

$S_l$ .

— Don Reba,

Colpa mia. Errore di battitura corretto: 'Non è questa risposta completamente sbagliata? Come si può dire che l'ottimizzazione della politica stato per stato porta a una politica ottimale? Se ottimizzo sullo stato

S_{t}

$S_t$ e mi porta a

S_{t + 1}

$S_{t+1}$ e quindi l'ottimizzazione a

S_{t + 1}

$S_{t+1}$ porta a una funzione di valore ottimale

V_{t + 2}

$V_{t+2}$ di

S_{t + 2}

$S_{t+2}$ ma c'è un'altra politica in cui

S_{t}

$S_t$ conduce subottimamente a

S_{l + 1}

$S_{l+1}$ e quindi la funzione valore di

S_{t + 1}

$S_{t+1}$ è maggiore di

V_{l + 1}

$V_{l+1}$ ma la funzione del valore di

è maggiore in questa politica rispetto alla politica trovata ottimizzando stato per stato. Come viene escluso da te?

S_{t + 2}

$S_{t+2}$

— MiloMinderbinder,

Penso che la definizione di

impedirà che ciò accada in primo luogo, poiché dovrebbe tenere conto anche dei rendimenti futuri.

V

$V$

— Flying_Banana,

La domanda sarebbe quindi: perché esiste

? Non è possibile aggirare il teorema del punto fisso di Banach :-)

q_{*}

$q_*$

— Fabian Werner

10

L'esistenza di una politica ottimale non è evidente. Per capire perché, nota che la funzione valore fornisce solo un ordinamento parziale nello spazio delle politiche. Questo significa:

π^{'} \geq π ⟺ v_{π^{'}} (s) \geq v_{π} (s), \forall s \in S

$\pi' \geq \pi \iff v_{\pi'}(s) \geq v_{\pi}(s), \forall s \in S$

Poiché questo è solo un ordinamento parziale, potrebbe esserci un caso in cui due politiche, e , non sono comparabili. In altre parole, ci sono sottoinsiemi dello spazio degli stati, e tali che: $\pi_1$ $\pi_2$ $S_1$ $S_2$

v_{π^{'}} (s) \geq v_{π} (s), \forall s \in S_{1}

$v_{\pi'}(s) \geq v_{\pi}(s), \forall s \in S_1$

v_{π} (s) \geq v_{π^{'}} (s), \forall s \in S_{2}

$v_{\pi}(s) \geq v_{\pi'}(s),\forall s \in S_2$

In questo caso, non possiamo dire che una politica sia migliore dell'altra. Ma se abbiamo a che fare con MDP finiti con funzioni a valore limitato, allora tale scenario non si verifica mai. Esiste esattamente una funzione di valore ottimale, sebbene possano esserci più politiche ottimali.

Per una prova di questo, è necessario comprendere il teorema del punto fisso di Banach. Per un'analisi dettagliata, fare riferimento .

— Karthik Thiagarajan
fonte

7

$\newcommand{\mc}{\mathcal} \newcommand{\mb}{\mathbb}$

Ambientazione

Stiamo considerando nella cornice di:

Azioni discrete
Stati discreti
Ricompense limitate
Stationary policy
Infinite horizon

The optimal policy is defined as:

\begin{matrix} (1) & π^{*} \in \arg max_{π} V^{π} (s), \forall s \in S \end{matrix}

$\pi^\ast \in \arg \max_\pi V^\pi(s), \forall s \in \mc{S} \tag{1}$ and the optimal value function is:

\begin{matrix} (2) & V^{*} = max_{π} V^{π} (s), \forall s \in S \end{matrix}

$V^\ast = \max_\pi V^\pi (s), \forall s \in \mc S \tag{2}$ There can be a set of policies which achieve the maximum. But there is only one optimal value function:

\begin{matrix} (3) & V^{*} = V^{π^{*}} \end{matrix}

$V^\ast = V^{\pi^\ast} \tag{3}$

The question

How to prove that there exists at least one $\pi^\ast$ which satisfies (1) simultaneously for all $s \in \mc{S}$ ?

Outline of proof

Construct the optimal equation to be used as a temporary surrogate definition of optimal value function, which we will prove in step 2 that it is equivalent to the definition via Eq.(2).
$\begin{matrix} (4) & V^{*} (s) = max_{a \in A} [R (s, a) + γ \sum_{s^{'} \in S} T (s, a, s^{'}) V^{*} (s^{'})] \end{matrix}$ $V^\ast(s) = \max_{a \in \mc A} [ R(s, a) + \gamma \, \sum_{s^\prime \in \mc S} T(s, a, s^\prime) V^\ast(s^\prime)] \tag{4}$
Deriva l'equivalenza della definizione della funzione di valore ottimale tramite l'Eq. (4) e tramite l'Eq. (2).

(Notate infatti abbiamo solo bisogno della direzione della necessità nella dimostrazione, perché la sufficienza è ovvia poiché abbiamo costruito l'Eq. (4) dall'Eq. (2).)
Prova che esiste una soluzione unica all'Eq. (4).
Dal passaggio 2, sappiamo che la soluzione ottenuta nel passaggio 3 è anche una soluzione all'equazione (2), quindi è una funzione di valore ottimale.
Da una funzione di valore ottimale, possiamo recuperare una politica ottimale scegliendo l'azione del massimizzatore nell'Eq. (4) per ogni stato.

Dettagli dei passaggi

1

Since $V^\ast(s) = V^{\pi^\ast}(s) = \mb E_a [Q^{\pi^\ast}(s, a)]$ , we have $V^{\pi^\ast}(s) \le \max_{a \in \mc A} Q^{\pi^\ast} (s, a)$ . And if there is any $\tilde{s}$ such that , possiamo scegliere una politica migliore massimizzandosu $V^{\pi^\ast} \neq \max_{a \in \mc A} Q^{\pi^\ast} (s, a)$ $Q^{\ast} (s, a) = Q^{\pi^\ast} (s, a)$ $a$ .

2

(=>)

Segue il passaggio 1.

(<=)

cioè se soddisfa $\tilde V$ $\tilde V(s) = \max_{a \in \mc A} [ R(s, a) + \gamma \, \sum_{s^\prime \in \mc S} T(s, a, s^\prime) \tilde V(s^\prime)]$ , then $\tilde V(s) = V^\ast(s) = \max_\pi V^\pi(s), \forall s \in \mc S$ .

Define the optimal Bellman operator as

\begin{matrix} (5) & T V (s) = max_{a \in A} [R (s, a) + γ \sum_{s^{'} \in S} T (s, a, s^{'}) V (s^{'})] \end{matrix}

$\mc T V(s) = \max_{a \in \mc A} [ R(s, a) + \gamma \, \sum_{s^\prime \in \mc S} T(s, a, s^\prime) V(s^\prime)] \tag{5}$ So our goal is to prove that if

\tilde{V} = T \tilde{V}

$\tilde V = \mc T \tilde V$ , then

\tilde{V} = V^{*}

$\tilde V = V^\ast$ . We show this by combining two results, following Puterman[1]:

a) If $\tilde V \ge \mc T \tilde V$ , then $\tilde V \ge V^\ast$ .

b) If $\tilde V \le \mc T \tilde V$ , then $\tilde V \le V^\ast$ .

Proof:

a)

For any $\pi = (d_1, d_2, ...)$ ,

\begin{aligned} \tilde{V} & \geq T \tilde{V} = max_{d} [R_{d} + γ P_{d} \tilde{V}] \\ \geq R_{d_{1}} + γ P_{d_{1}} \tilde{V} \end{aligned}

$\begin{align} \tilde V &\ge \mc T \tilde V = \max_{d} [ R_d + \gamma \, P_d \tilde V] \\ &\ge R_{d_1} + \gamma \, P_{d_1} \tilde V \\ \end{align}$ Here

d

$d$ is the decision rule(action profile at specific time),

R_{d}

$R_d$ is the vector representation of immediate reward induced from

d

$d$ and

P_{d}

$P_d$ is transition matrix induced from

d

$d$ .

By induction, for any $n$ ,

\tilde{V} \geq R_{d_{1}} + \sum_{i = 1}^{n - 1} γ^{i} P_{π}^{i} R_{d_{i + 1}} + γ^{n} P_{π}^{n} \tilde{V}

$\tilde V \ge R_{d_1} + \sum_{i=1}^{n-1} \gamma^i P_\pi^i R_{d_{i+1}} + \gamma^n P_\pi^n \tilde V$ where

P_{π}^{j}

$P_\pi^j$ represents the

j

$j$ -step transition matrix under

π

$\pi$ .

Since

V^{π} = R_{d_{1}} + \sum_{i = 1}^{\infty} γ^{i} P_{π}^{i} R_{d_{i + 1}}

$V^\pi = R_{d_1} + \sum_{i=1}^{\infty}\gamma^i P_\pi^i R_{d_{i+1}}$ we have

\tilde{V} - V^{π} \geq \underset{\to 0 as n \to \infty}{\underset{⏟}{γ^{n} P_{π}^{n} \tilde{V} - \sum_{i = n}^{\infty} γ^{i} P_{π}^{i} R_{d_{i + 1}}}}

$\tilde V - V^\pi \ge \underbrace{\gamma^n P_\pi^n \tilde V -\sum_{i=n}^{\infty}\gamma^i P_\pi^i R_{d_{i+1}}}_{\rightarrow 0 \ \text{as}\ n\rightarrow \infty}$ So we have

\tilde{V} \geq V^{π}

$\tilde V \ge V^\pi$ . And since this holds for any

π

$\pi$ , we conclude that

\tilde{V} \geq max_{π} V^{π} = V^{*}

$\tilde V \ge \max_\pi V^\pi = V^\ast$ b)

Follows from step 1.

3

The optimal Bellman operator is a contraction in $L_\infty$ norm, cf. [2].

Proof: For any $s$ ,

\begin{aligned} | T V_{1} (s) - T V_{2} (s) | & = | max_{a \in A} [R (s, a) + γ \sum_{s^{'} \in S} T (s, a, s^{'}) V_{1} (s^{'})] - max_{a^{'} \in A} [R (s, a^{'}) + γ \sum_{s^{'} \in S} T (s, a^{'}, s^{'}) V (s^{'})] | \\ \overset{(*)}{\leq} | max_{a \in A} [γ \sum_{s^{'} \in S} T (s, a, s^{'}) (V_{1} (s^{'}) - V_{2} (s^{'}))] | \\ \leq γ ‖ V_{1} - V_{2} ‖_{\infty} \end{aligned}

$\begin{align} \left\vert \mc T V_1(s) - \mc TV_2(s) \right\vert &= \left\vert \max_{a \in \mc A} [ R(s, a) + \gamma \, \sum_{s^\prime \in \mc S} T(s, a, s^\prime) V_1(s^\prime)] -\max_{a^\prime \in \mc A} [ R(s, a^\prime) + \gamma \, \sum_{s^\prime \in \mc S} T(s, a^\prime, s^\prime) V(s^\prime)]\right\vert \\ &\overset{(*)}{\le} \left\vert \max_{a \in \mc A} [\gamma \, \sum_{s^\prime \in \mc S} T(s, a, s^\prime) (V_1(s^\prime) - V_2(s^\prime))] \right\vert \\ &\le \gamma \Vert V_1 - V_2 \Vert_\infty \end{align}$ where in (*) we used the fact that

max_{a} f (a) - max_{a^{'}} g (a^{'}) \leq max_{a} [f (a) - g (a)]

$\max_a f(a) - \max_{a^\prime} g(a^\prime) \le \max_a [f(a) - g(a)]$

Thus by Banach fixed point theorum it follows that $\mc T$ has a unique fixed point.

References

[1] Puterman, Martin L.. “Markov Decision Processes : Discrete Stochastic Dynamic Programming.” (2016).

[2] A. Lazaric. http://researchers.lille.inria.fr/~lazaric/Webpage/MVA-RL_Course14_files/slides-lecture-02-handout.pdf

— LoveIris
fonte

-1

The policy $a=\pi(s)$ gives the best action $a$ to execute in state $s$ according to policy $\pi$ , i.e. the value function $v_\pi(s)=\max_{a \in A} q_\pi (s,a)$ is highest for action $a$ in state $s$ .

There is always at least one policy that is better than or equal to all other policies.

Thus there is always a policy $\pi_*$ which gives equal or higher expected rewards than policy $\pi$ . Note that this implies that $\pi$ could be an/the optimal policy ( $\pi_*$ ) itself.

— agold
fonte

3

How does this answer the question? You're basically repeating statements written in the quote.

— nbro