Imparare la struttura di un compito di rinforzo gerarchico

Ho studiato problemi di apprendimento del rinforzo gerarchico e, sebbene molti articoli propongano algoritmi per l'apprendimento di una politica, sembrano tutti presumere di conoscere in anticipo una struttura grafica che descriva la gerarchia delle azioni nel dominio. Ad esempio, il metodo MAXQ per l'apprendimento del rinforzo gerarchico di Dietterich descrive un grafico di azioni e attività secondarie per un semplice dominio Taxi, ma non come è stato scoperto questo grafico. Come impareresti la gerarchia di questo grafico e non solo la politica?

In altre parole, usando l'esempio del documento, se un Taxi guidasse senza meta, con una scarsa conoscenza del mondo e solo le azioni primitive di spostamento-sinistra / spostamento-destra / ecc., Come apprenderebbe azioni di livello superiore come go-pick-up-passeggero? Se sto capendo il documento correttamente (e potrei non esserlo), propone come aggiornare la politica per queste azioni di alto livello, ma non come sono state formate all'inizio.

machine-learning

— Cerin
fonte

Secondo questo documento

Nell'attuale stato dell'arte, il progettista di un sistema RL utilizza in genere conoscenze precedenti sull'attività per aggiungere un insieme specifico di opzioni all'insieme di azioni primitive disponibili per l'agente.

Vedi anche la sezione 6.2 Gerarchie di attività di apprendimento nello stesso documento.

La prima idea che mi viene in mente è che se non conosci le gerarchie di attività, dovresti iniziare con l'apprendimento del rinforzo non gerarchico e provare a scoprire la struttura in seguito o durante l'apprendimento, cioè stai cercando di generalizzare il tuo modello. Per me questo compito è simile alla tecnica di fusione del modello bayesiano per HMM (ad esempio vedere questa tesi )

— Alexey Kalmykov
fonte