Intelligenza artificiale q-learning

1

Qual è la relazione tra Q-learning e metodi di gradienti politici?

Per quanto ho capito, Q-learning e gradienti politici (PG) sono i due principali approcci utilizzati per risolvere i problemi di RL. Mentre il Q-learning mira a prevedere la ricompensa di una determinata azione intrapresa in un determinato stato, i gradienti politici predicono direttamente l'azione stessa. Tuttavia, entrambi gli approcci mi …

21 reinforcement-learning q-learning policy-gradients comparison

1

Perché DQN richiede due reti diverse?

Stavo attraversando questa implementazione di DQN e vedo che sulla linea 124 e 125 sono state inizializzate due diverse reti Q. Da quanto ho capito, penso che una rete preveda l'azione appropriata e la seconda preveda i valori Q di destinazione per trovare l'errore Bellman. Perché non possiamo creare un'unica …

12 reinforcement-learning q-learning dqn

2

Perché Q-learning non converge quando si usa l'approssimazione delle funzioni?

L'algoritmo tabellare Q-learning è garantito per trovare la funzione QQQ ottimale , Q*Q∗Q^* , a condizione che siano soddisfatte le seguenti condizioni (le condizioni di Robbins-Monro ) relative alla frequenza di apprendimento Σtαt( s , a ) = ∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty Σtα2t( s , a ) < ∞∑tαt2(s,a)<∞\sum_{t} …

12 reinforcement-learning q-learning deep-rl proofs function-approximation

Domande taggate «q-learning»