Di recente ho appreso il Q-learning, una tecnica di apprendimento di rinforzo che stima direttamente il valore atteso di intraprendere un'azione in uno stato.
Mi chiedo se esistano tecniche per fare "apprendimento della dinamica", al fine di stimare la dinamica di un sistema. Un agente di "apprendimento dinamico" potrebbe scegliere azioni che lo aiutino a stimare la funzione di transizione di stato o a stimare i parametri di alcune funzioni di transizione note.
Ad esempio, un agente di "apprendimento della dinamica" nel sistema del carrello polare scoprirebbe una funzione che approssima le equazioni del moto del carrello polare. Oppure, l'agente potrebbe conoscere queste equazioni, ma non i parametri del sistema, come il momento inerziale del pendolo o la massa del carrello.
Quali tecniche ci sono per "apprendere la dinamica"?