Supponiamo che io abbia un'architettura di modello di deep learning, nonché una dimensione mini-batch scelta. Come posso derivare da questi i requisiti di memoria previsti per l'addestramento di quel modello?
Ad esempio, si consideri un modello (non ricorrente) con input di dimensione 1000, 4 layer nascosti completamente connessi di dimensione 100 e un layer di output aggiuntivo di dimensione 10. La dimensione mini-batch è di 256 esempi. Come si determina il footprint di memoria approssimativa (RAM) del processo di training sulla CPU e sulla GPU? Se fa qualche differenza, supponiamo che il modello sia addestrato su una GPU con TensorFlow (usando quindi cuDNN).