Sto pensando di programmare una linea seguendo il robot usando algoritmi di apprendimento di rinforzo. La domanda su cui sto riflettendo è come posso ottenere l'algoritmo per imparare a navigare attraverso qualsiasi percorso arbitrario?
Dopo aver seguito il Sutton & Barto Book per l'apprendimento per rinforzo, ho risolto un problema di esercizio che riguardava una pista in cui l'agente automobilistico aveva imparato a non scendere in pista e regolare la sua velocità. Tuttavia, quel problema di esercizio ha indotto l'agente a imparare come navigare sulla pista su cui si è allenato.
È nell'ambito dell'apprendimento del rinforzo far sì che un robot percorra percorsi arbitrari? L'agente deve assolutamente avere una mappa del circuito o del percorso di gara? Quali parametri potrei eventualmente usare per il mio spazio di stato?