Ho studiato problemi di apprendimento del rinforzo gerarchico e, sebbene molti articoli propongano algoritmi per l'apprendimento di una politica, sembrano tutti presumere di conoscere in anticipo una struttura grafica che descriva la gerarchia delle azioni nel dominio. Ad esempio, il metodo MAXQ per l'apprendimento del rinforzo gerarchico di Dietterich descrive un grafico di azioni e attività secondarie per un semplice dominio Taxi, ma non come è stato scoperto questo grafico. Come impareresti la gerarchia di questo grafico e non solo la politica?
In altre parole, usando l'esempio del documento, se un Taxi guidasse senza meta, con una scarsa conoscenza del mondo e solo le azioni primitive di spostamento-sinistra / spostamento-destra / ecc., Come apprenderebbe azioni di livello superiore come go-pick-up-passeggero? Se sto capendo il documento correttamente (e potrei non esserlo), propone come aggiornare la politica per queste azioni di alto livello, ma non come sono state formate all'inizio.