Domande taggate «policy-iteration»

Perché l'algoritmo di iterazione delle politiche converge in criteri e valori ottimali?

Stavo leggendo gli appunti di Andrew Ng sull'apprendimento per rinforzo e stavo cercando di capire perché l'iterazione politica convergesse alla funzione di valore ottimale e politica ottimale .V*V*V^*π*π*\pi^* L'iterazione della politica di richiamo è: Inizializza π a casoRipeti {L e t V : = Vπ \ per la politica corrente, …

10 reinforcement-learning policy-iteration

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.

Licensed under cc by-sa 3.0 with attribution required.