Domande taggate «function-approximation»

2
Perché Q-learning non converge quando si usa l'approssimazione delle funzioni?
L'algoritmo tabellare Q-learning è garantito per trovare la funzione QQQ ottimale , Q*Q∗Q^* , a condizione che siano soddisfatte le seguenti condizioni (le condizioni di Robbins-Monro ) relative alla frequenza di apprendimento Σtαt( s , a ) = ∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty Σtα2t( s , a ) < ∞∑tαt2(s,a)<∞\sum_{t} …
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.