2
Perché l'algoritmo di iterazione delle politiche converge in criteri e valori ottimali?
Stavo leggendo gli appunti di Andrew Ng sull'apprendimento per rinforzo e stavo cercando di capire perché l'iterazione politica convergesse alla funzione di valore ottimale e politica ottimale .V*V*V^*π*π*\pi^* L'iterazione della politica di richiamo è: Inizializza π a casoRipeti {L e t V : = Vπ \ per la politica corrente, …