4
Perché Q-Learning usa epsilon-greedy durante i test?
Nell'articolo di DeepMind su Deep Q-Learning per i videogiochi Atari ( qui ), usano un metodo avido di epsilon per l'esplorazione durante l'allenamento. Ciò significa che quando si seleziona un'azione in allenamento, questa viene scelta come azione con il valore q più alto o un'azione casuale. La scelta tra questi …