L'obiettivo è progettare un componente di ottimizzazione della politica prossimale che abbia vincoli specifici sullo spazio d'azione dipendente dalle regole guidate dallo stato, usando un framework come Tensorforce.
Opzioni di progettazione elencate nella domanda
Queste opzioni sono elencate qui per un rapido riferimento durante la lettura dell'analisi iniziale di seguito.
- Cambia lo spazio di azione ad ogni passaggio, a seconda di stato_interno. Presumo che sia una sciocchezza.
- Non fare nulla: fai capire al modello che la scelta di un'azione non disponibile non ha alcun impatto.
- Non fare quasi nulla: impatta leggermente la ricompensa quando il modello sceglie un'azione non disponibile.
- Aiuta il modello: incorporando un numero intero nello spazio stato / osservazione che informa il modello qual è il valore stato_interno + punto elenco 2 o 3
Analisi iniziale
È davvero sensato cambiare lo spazio d'azione per ogni mossa. Questa è, in effetti, una rappresentazione adeguata del problema come affermato e del modo normale in cui gli umani giocano e il modo in cui i computer battono gli umani in Chess and Go.
L'apparente insensatezza di questa idea è semplicemente un artefatto del progresso lungo la road map del progetto Tensorforce e del progresso lungo la teoria del rinforzo, entrambi giovani nel quadro generale. Leggendo la documentazione e le FAQ di Tensorforce, non sembra che il framework sia progettato per collegare un motore di regole per determinare lo spazio di azione. Questo non è un difetto dell'open source. Non sembra esserci alcun documento che fornisca teoria o proponga algoritmi per la decisione della catena di Markov condizionata.
L'opzione do-nothing è quella che si adatta alle attuali strategie disponibili rappresentate in letteratura. Il quasi nulla è probabilmente l'approccio che produrrà comportamenti desiderabili più affidabili e forse più immediati.
Il problema con l'idea di aiutare il modello è che non è un'idea così forte che estendere il modello. In open source, questo sarebbe fatto estendendo le classi che rappresentano il modello, che richiederebbe un lavoro teorico prima della codifica a
a. Represent rule-conditioned learning in nomenclature
b. Represent convergence mathematically using the new nomenclature
c. Determining a method of convergence
d. Proving convergence
e. Rechecking
f. Defining a smooth and efficient algorithm
g. Providing PAC learning information for planning
f. Peer review
g. Extending the classes of the library
h. Proof of concept with the current problem above
i. Additional cases and metrics comparing the approach with the others
j. Extending the library flexibility to support more such dev
L'estensione dei sistemi di apprendimento per coprire il caso vincolato dalle regole è un'ottima idea per una tesi di dottorato e potrebbe volare nei laboratori di ricerca come proposta di progetto con molte possibili applicazioni. Non lasciare che tutti i passaggi dissuadano il ricercatore. Sono essenzialmente un elenco di passaggi per qualsiasi tesi di dottorato o progetto di laboratorio di intelligenza artificiale finanziato.
Per una soluzione a breve termine, aiutare il modello potrebbe funzionare, ma non è una strategia valida per promuovere le idee di intelligenza artificiale lungo il percorso di apprendimento di rinforzo. Come soluzione a breve termine per un problema particolare, potrebbe funzionare correttamente. L'idea del quasi nulla può essere più valida, poiché si adatta alle prove di convergenza che hanno portato alla particolare implementazione che Tensorforce probabilmente utilizzerà.
Rinominarlo dal fare quasi nulla per favorire la convergenza può aiutare a sviluppare la giusta prospettiva prima di provarlo. Potresti scoprire che devi attenuare l'assistenza mentre ti avvicini alla convergenza per evitare il superamento così come con un tasso di apprendimento.