Quando si implementa la discesa gradiente mini-batch per reti neurali, è importante prendere elementi casuali in ciascun mini-batch? O è sufficiente mescolare gli elementi all'inizio dell'allenamento una volta?
(Sono anche interessato a fonti che sicuramente dicono ciò che fanno.)