Dinamiche di apprendimento

Di recente ho appreso il Q-learning, una tecnica di apprendimento di rinforzo che stima direttamente il valore atteso di intraprendere un'azione in uno stato.

Mi chiedo se esistano tecniche per fare "apprendimento della dinamica", al fine di stimare la dinamica di un sistema. Un agente di "apprendimento dinamico" potrebbe scegliere azioni che lo aiutino a stimare la funzione di transizione di stato o a stimare i parametri di alcune funzioni di transizione note.

Ad esempio, un agente di "apprendimento della dinamica" nel sistema del carrello polare scoprirebbe una funzione che approssima le equazioni del moto del carrello polare. Oppure, l'agente potrebbe conoscere queste equazioni, ma non i parametri del sistema, come il momento inerziale del pendolo o la massa del carrello.

Quali tecniche ci sono per "apprendere la dinamica"?

machine-learning physics

— Robz
fonte

Ci sono tre problemi. Innanzitutto, devi scegliere una classe di modelli per la dinamica. In secondo luogo, è necessario costruire un set di addestramento, portando l'agente lungo diverse traiettorie per esplorare lo spazio degli stati. Terzo, hai bisogno di un modo per apprendere / dedurre un particolare modello di dinamica da questo set di addestramento. Esistono diversi modi per creare un'istanza di ciascuna di queste attività.

In robotica, una scelta comune è quella di utilizzare un processo decisionale Markov (MDP) per il modello di dinamica. Questa è una scelta conveniente, perché ci sono modi relativamente standard per imparare un MDP da un set di addestramento, e dato che, dato un modello di dinamica MDP, è ben studiato come costruire un controller per il sistema che tenga conto della dinamica. Un'altra opzione è quella di utilizzare un processo decisionale Markov di ordine superiore o un processo decisionale Markov parzialmente osservabile, ma quelli possono essere molto più ingombranti con cui lavorare.

Esistono molti modi per esplorare lo spazio degli stati. Il capitolo 3.1 della tesi di dottorato di Pieter Abbeel ha una bella panoramica a partire dal 2008.

Per inferire / apprendere un MDP dato un set di addestramento, è possibile utilizzare la stima della massima verosimiglianza. Sono anche possibili tecniche più sofisticate; vedi anche la tesi di dottorato di Abbeel per una panoramica (Capitoli 3 e 4).

Più in generale, consultare la letteratura sull'identificazione del sistema dal campo della teoria del controllo.

— DW
fonte