Domande taggate «deep-rl»

Perché Q-Learning usa epsilon-greedy durante i test?

Nell'articolo di DeepMind su Deep Q-Learning per i videogiochi Atari ( qui ), usano un metodo avido di epsilon per l'esplorazione durante l'allenamento. Ciò significa che quando si seleziona un'azione in allenamento, questa viene scelta come azione con il valore q più alto o un'azione casuale. La scelta tra questi …

18 machine-learning reinforcement-learning q-learning deep-rl

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.

Licensed under cc by-sa 3.0 with attribution required.