1
Perché DQN richiede due reti diverse?
Stavo attraversando questa implementazione di DQN e vedo che sulla linea 124 e 125 sono state inizializzate due diverse reti Q. Da quanto ho capito, penso che una rete preveda l'azione appropriata e la seconda preveda i valori Q di destinazione per trovare l'errore Bellman. Perché non possiamo creare un'unica …