Comprensione degli spazi di stato / azione continui MDP e Reinforcement Learning

La maggior parte delle presentazioni nel campo degli MDP e dell'apprendimento per rinforzo si concentrano esclusivamente su domini in cui le variabili di spazio e azione sono numeri interi (e finiti). In questo modo siamo introdotti rapidamente a Value Iteration, Q-Learning e simili.

Tuttavia le applicazioni più interessanti (diciamo, elicotteri volanti ) di RL e MDP coinvolgono spazio di stato continuo e spazi di azione. Vorrei andare oltre le presentazioni di base e concentrarmi su questi casi, ma non sono sicuro di come arrivarci.

Quali aree devo conoscere o studiare per comprendere a fondo questi casi?

research reinforcement-learning control-problem

— CarrKnight
fonte

C'è una piccola indagine su stati continui, azioni e tempo nell'apprendimento per rinforzo nella mia proposta di tesi .

Per quanto riguarda i libri, Reinforcement Learning: State-of-the-Art sembra essere abbastanza aggiornato dagli estratti che ho letto.

— rcpinto
fonte