Sto cercando di capire il famoso articolo "Giocando Atari con Deep Reinforcement Learning" ( pdf ). Non sono chiaro sulla differenza tra un'epoca e un episodio . Nell'algoritmo , il ciclo esterno è sopra episodi , mentre in figura l'asse x è etichettato epoca . Nel contesto dell'apprendimento per rinforzo, non sono chiaro cosa significhi un'epoca. Un'epoca è un anello esterno attorno al ciclo dell'episodio?