Domande taggate «q-learning»


1
Perché DQN richiede due reti diverse?
Stavo attraversando questa implementazione di DQN e vedo che sulla linea 124 e 125 sono state inizializzate due diverse reti Q. Da quanto ho capito, penso che una rete preveda l'azione appropriata e la seconda preveda i valori Q di destinazione per trovare l'errore Bellman. Perché non possiamo creare un'unica …

2
Perché Q-learning non converge quando si usa l'approssimazione delle funzioni?
L'algoritmo tabellare Q-learning è garantito per trovare la funzione QQQ ottimale , Q*Q∗Q^* , a condizione che siano soddisfatte le seguenti condizioni (le condizioni di Robbins-Monro ) relative alla frequenza di apprendimento Σtαt( s , a ) = ∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty Σtα2t( s , a ) < ∞∑tαt2(s,a)<∞\sum_{t} …
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.