Un'epoca nella discesa del gradiente stocastico è definita come un singolo passaggio attraverso i dati. Per ogni minibatch SGD, vengono estratti campioni, il gradiente calcolato e i parametri aggiornati. Nell'impostazione dell'epoca, i campioni vengono disegnati senza sostituzione.
Ma questo sembra inutile. Perché non disegnare ogni minibatch SGD mentre disegna casualmente dall'intero set di dati ad ogni iterazione? Su un gran numero di epoche, le piccole deviazioni di cui si vedono i campioni più o meno spesso sembrano non essere importanti.