Comprensione degli spazi di stato / azione continui MDP e Reinforcement Learning


8

La maggior parte delle presentazioni nel campo degli MDP e dell'apprendimento per rinforzo si concentrano esclusivamente su domini in cui le variabili di spazio e azione sono numeri interi (e finiti). In questo modo siamo introdotti rapidamente a Value Iteration, Q-Learning e simili.

Tuttavia le applicazioni più interessanti (diciamo, elicotteri volanti ) di RL e MDP coinvolgono spazio di stato continuo e spazi di azione. Vorrei andare oltre le presentazioni di base e concentrarmi su questi casi, ma non sono sicuro di come arrivarci.

Quali aree devo conoscere o studiare per comprendere a fondo questi casi?

Risposte:


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.