Mi sembra che la funzione possa essere facilmente espressa dalla funzione e quindi la funzione sembra superflua. Tuttavia, sono nuovo nell'apprendimento del rinforzo, quindi credo di aver sbagliato qualcosa.
definizioni
L'apprendimento Q e V sono nel contesto dei processi decisionali di Markov . Un MDP è una 5 tupla con
- è un insieme di stati (tipicamente finito)
- è un insieme di azioni (tipicamente finito)
- s s ′ a è la probabilità di passare dallo stato allo stato con l'azione .
- s è la ricompensa immediata dopo essere passati dallo stato allo stato con l'azione . (Mi sembra che di solito solo questioni). a s ′
- è chiamato fattore di sconto e determina se ci si concentra sui premi immediati ( ), sulla ricompensa totale ( ) o su alcuni trade-off.
Una politica , secondo Reinforcement Learning: An Introduction di Sutton and Barto è una funzione (questo potrebbe essere probabilistico).
Secondo le diapositive Mario Martins , la funzione è
I miei pensieri
Le stati di funzionamento quale sia il valore complessivo atteso (non ricompensa!) Di uno stato s nel quadro della politica π è.
I stati di funzionamento quale sia il valore di uno stato s e un'azione di un quadro della politica π è.
Ciò significa che
Destra? Quindi perché abbiamo la funzione valore? (Immagino di aver confuso qualcosa)