C'è qualche letteratura che esamina la scelta della dimensione del minibatch quando si esegue la discesa gradiente stocastica? Nella mia esperienza, sembra essere una scelta empirica, di solito trovata attraverso la convalida incrociata o usando varie regole empiriche.
È una buona idea aumentare lentamente le dimensioni del minibatch man mano che diminuisce l'errore di convalida? Quali effetti avrebbe questo sull'errore di generalizzazione? Sto meglio usando un minibatch estremamente piccolo e aggiornando il mio modello centinaia di migliaia di volte? Starei meglio con un numero bilanciato a metà tra estremamente piccolo e batch?
Devo ridimensionare la dimensione del mio minibatch con la dimensione del set di dati o il numero previsto di funzionalità all'interno del set di dati?
Ovviamente ho molte domande sull'implementazione di schemi di apprendimento in minibatch. Sfortunatamente, la maggior parte degli articoli che leggo non specifica davvero come hanno scelto questo iperparametro. Ho avuto un certo successo da autori come Yann LeCun, in particolare dalla raccolta di articoli Tricks of the Trade. Tuttavia, non ho ancora visto queste domande completamente affrontate. Qualcuno ha qualche consiglio per documenti o consigli su quali criteri posso usare per determinare le dimensioni minibatch adeguate quando provo ad apprendere le funzionalità?