Durante l'addestramento dei modelli di apprendimento automatico, perché a volte è vantaggioso mantenere la dimensione del batch a una potenza di 2? Ho pensato che sarebbe meglio usare una dimensione che si adatta meglio alla tua memoria GPU / RAM.
Questa risposta afferma che per alcuni pacchetti, una potenza di 2 è migliore come dimensione del lotto. Qualcuno può fornire una spiegazione dettagliata / link a una spiegazione dettagliata per questo? Questo vale per tutti gli algoritmi di ottimizzazione (discesa del gradiente, backpropagation, ecc.) O solo alcuni di essi?