è possibile fornire una stima empirica delle dimensioni delle reti neurali che possono essere addestrate su GPU di largo consumo ? Per esempio:
Il documento The Emergence of Locomotion (Reinforcement) forma una rete usando l'attivazione tanh dei neuroni. Hanno un NN a 3 strati con 300.200.100 unità per il Planar Walker . Ma non riportano l'hardware e il tempo ...
Ma potrebbe essere sviluppata una regola empirica? Anche solo sulla base dei risultati empirici attuali, quindi ad esempio:
X Le unità che usano l'attivazione sigmoid possono eseguire Y iterazioni di apprendimento all'ora su 1060.
O l'uso della funzione di attivazione a invece di b provoca una riduzione dei tempi delle prestazioni.
Se uno studente / ricercatore / mente curiosa sta per acquistare una GPU per giocare con queste reti, come decidi cosa ottieni? A quanto pare, un 1060 è l'opzione di budget entry-level, ma come si può valutare se non è più intelligente ottenere un netbook schifoso invece di costruire un desktop ad alta potenza e spendere $ risparmiati su infrastruttura cloud on-demand.
Motivazione per la domanda: ho appena acquistato un 1060 e (intelligente, per porre la domanda dopo eh) mi chiedo se avrei dovuto semplicemente mantenere $ e creare un account Google Cloud. E se posso eseguire la mia simulazione di tesi di laurea sulla GPU.