4
Come gestire le mosse non valide nell'apprendimento per rinforzo?
Voglio creare un'intelligenza artificiale in grado di giocare a cinque di fila / gomoku. Come ho già detto nel titolo, voglio usare l'apprendimento per rinforzo per questo. Uso il metodo del gradiente delle politiche , vale a dire REINFORCE, con baseline. Per l'approssimazione del valore e della funzione politica, utilizzo …