Ho visto conclusioni simili da molte discussioni, che con l'aumentare delle dimensioni del minibatch la convergenza di SGD diventa effettivamente più difficile / peggio, ad esempio questo documento e questa risposta . Ho anche sentito parlare di persone che usano trucchi come piccoli tassi di apprendimento o dimensioni dei lotti nella fase iniziale per affrontare questa difficoltà con lotti di grandi dimensioni.
Tuttavia sembra controintuitivo in quanto la perdita media di un minibatch può essere considerata come un'approssimazione della perdita attesa sulla distribuzione dei dati,
Ecco alcuni dei miei pensieri (probabilmente sbagliati) che cercano di spiegare.
I parametri del modello dipendono fortemente l'uno dall'altro, quando il batch diventa troppo grande influenzerà troppi parametri contemporaneamente, in modo che sia difficile per i parametri raggiungere una dipendenza intrinseca stabile? (come il problema di spostamento della covariata interno menzionato nel documento di normalizzazione in lotti )
O quando quasi tutti i parametri sono responsabili in ogni iterazione tenderanno ad apprendere schemi impliciti ridondanti, riducendo così la capacità del modello? (Voglio dire, per problemi di classificazione delle cifre, alcuni motivi dovrebbero essere responsabili dei punti, altri dei bordi, ma quando ciò accade, ogni motivo cerca di essere responsabile di tutte le forme).
O è perché quando la dimensione dei lotti si avvicina alla scala del set di addestramento, i minibatch non possono più essere visti come iid dalla distribuzione dei dati, poiché ci sarà una grande probabilità di minibatch correlati?
Aggiornamento
Come sottolineato nella risposta di Benoit Sanchez, un motivo importante è che i minibatch di grandi dimensioni richiedono più calcoli per completare un aggiornamento e la maggior parte delle analisi utilizza una quantità fissa di epoche di addestramento per il confronto.
Tuttavia, questo documento (Wilson e Martinez, 2003) mostra che una dimensione del lotto più grande è ancora leggermente svantaggiosa, anche se viene fornita una quantità sufficiente di epoche di addestramento. È generalmente così?