Voglio creare un'intelligenza artificiale in grado di giocare a cinque di fila / gomoku. Come ho già detto nel titolo, voglio usare l'apprendimento per rinforzo per questo.
Uso il metodo del gradiente delle politiche , vale a dire REINFORCE, con baseline. Per l'approssimazione del valore e della funzione politica, utilizzo una rete neurale . Ha strati convoluzionali e completamente collegati. Tutti i livelli, ad eccezione dell'output, sono condivisi. Il livello di output della politica ha (la dimensione della scheda) unità di output e softmax su di essi. Quindi è stocastico. Ma cosa succede se la rete produce una probabilità molto alta per una mossa non valida? Una mossa non valida è quando l'agente vuole controllare un quadrato che contiene una "X" o "O". Penso che possa rimanere bloccato in quello stato di gioco.
Potresti consigliare qualche soluzione per questo problema?
La mia ipotesi è di usare il metodo dell'attore-critico . Per una mossa non valida, dovremmo dare una ricompensa negativa e passare il turno all'avversario.