Nell'articolo di DeepMind su Deep Q-Learning per i videogiochi Atari ( qui ), usano un metodo avido di epsilon per l'esplorazione durante l'allenamento. Ciò significa che quando si seleziona un'azione in allenamento, questa viene scelta come azione con il valore q più alto o un'azione casuale. La scelta tra questi due è casuale e basata sul valore di epsilon, e epsilon viene ricotto durante l'allenamento in modo tale che inizialmente vengano intraprese molte azioni casuali (esplorazione), ma man mano che l'allenamento progredisce, vengono intraprese molte azioni con i massimi valori q (sfruttamento).
Quindi, durante i test, usano anche questo metodo avido di epsilon, ma con epsilon a un valore molto basso, in modo tale che vi sia una forte propensione allo sfruttamento rispetto all'esplorazione, favorendo la scelta dell'azione con il più alto valore q rispetto a un'azione casuale. Tuttavia, a volte vengono ancora scelte azioni casuali (5% delle volte).
Le mie domande sono: perché a questo punto è necessaria alcuna esplorazione, dato che la formazione è già stata fatta? Se il sistema ha appreso la politica ottimale, allora perché l'azione non può sempre essere scelta come quella con il più alto valore q? L'esplorazione non dovrebbe essere fatta solo durante l'addestramento e, una volta appresa la politica ottimale, l'agente può semplicemente scegliere più volte l'azione ottimale?
Grazie!