Sto cercando di comprendere l'apprendimento per rinforzo e i processi decisionali markov (MDP) nel caso in cui una rete neurale venga utilizzata come approssimatore di funzioni.
Sto avendo difficoltà con la relazione tra MDP in cui l'ambiente viene esplorato in modo probabilistico, come questo si ricollega ai parametri di apprendimento e come si trovano la soluzione / le politiche finali.
È corretto supporre che, nel caso dell'apprendimento Q, la rete neurale agisca essenzialmente come un approssimatore di funzioni per il valore q stesso così tanti passi in futuro? In che modo questa mappa aggiorna i parametri tramite backpropagation o altri metodi?
Inoltre, una volta che la rete ha imparato a prevedere la ricompensa futura, in che modo si adatta al sistema in termini di prendere effettivamente decisioni? Suppongo che il sistema finale non realizzerebbe probabilisticamente transizioni di stato.
Grazie