La maggior parte delle presentazioni nel campo degli MDP e dell'apprendimento per rinforzo si concentrano esclusivamente su domini in cui le variabili di spazio e azione sono numeri interi (e finiti). In questo modo siamo introdotti rapidamente a Value Iteration, Q-Learning e simili.
Tuttavia le applicazioni più interessanti (diciamo, elicotteri volanti ) di RL e MDP coinvolgono spazio di stato continuo e spazi di azione. Vorrei andare oltre le presentazioni di base e concentrarmi su questi casi, ma non sono sicuro di come arrivarci.
Quali aree devo conoscere o studiare per comprendere a fondo questi casi?