Quale strato consuma più tempo nell'allenamento della CNN? Livelli di convoluzione vs livelli FC

11

In Convolutional Neural Network, quale strato consuma il massimo tempo in allenamento? Livelli di convoluzione o livelli completamente connessi? Possiamo prendere l'architettura AlexNet per capirlo. Voglio vedere l'interruzione del tempo del processo di allenamento. Voglio un confronto dei tempi relativi in modo che possiamo prendere qualsiasi configurazione GPU costante.

neural-networks deep-learning convolutional-neural-networks

— Ruchit Dalwadi
fonte

11

NOTA: ho fatto questi calcoli in modo speculativo, quindi alcuni errori potrebbero essersi insinuati. Si prega di informare di tali errori in modo da poterlo correggere.

In generale, in qualsiasi CNN il tempo massimo di addestramento va nella Back-Propagation degli errori nel Livello completamente connesso (dipende dalla dimensione dell'immagine). Anche la memoria massima è occupata da loro. Ecco una slide di Stanford sui parametri di VGG Net:

Chiaramente puoi vedere che i livelli completamente collegati contribuiscono a circa il 90% dei parametri. Quindi la memoria massima è occupata da loro.

$(3*3*3)$ $(3*3*3)$ $224*224$ $224*224*(3*3*3)$ $64$ $224*224$ $64*224*224*(3*3*3) \approx 87*10^6$

$56*56*256$ $56*56$ $(3*3*256)$ $56*56$ $256 * 56 * 56 * (3*3*256) \approx 1850 *10^6$

$stride = 1$

$channels_{output} * (pixelOutput_{height} * pixelOutput_{width}) * (filter_{height} * filter_{width} * channels_{input})$

Grazie alle GPU veloci siamo in grado di gestire facilmente questi enormi calcoli. Ma negli strati FC deve essere caricata l'intera matrice che causa problemi di memoria che generalmente non è il caso degli strati convoluzionali, quindi l'addestramento degli strati convoluzionali è ancora facile. Inoltre, tutti questi devono essere caricati nella memoria della GPU stessa e non nella RAM della CPU.

Anche qui è la tabella dei parametri di AlexNet:

Ed ecco un confronto delle prestazioni di varie architetture della CNN:

Ti suggerisco di dare un'occhiata alla CS231n Lecture 9 della Stanford University per una migliore comprensione degli angoli e delle fessure delle architetture della CNN.

— DuttaA
fonte

4

Poiché la CNN contiene un'operazione di convoluzione, ma DNN utilizza la divergenza costruttiva per l'addestramento. La CNN è più complessa in termini di notazione Big O.

Per riferimento:

1) Complessità temporale della CNN
https://arxiv.org/pdf/1412.1710.pdf

2) Layer completamente connessi / Deep Neural Network (DNN) / Multi Layer Perceptron (MLP) https://www.researchgate.net/post/What_is_the_time_complexity_of_Multilayer_Perceptron_MLP_and_other_neural_networks

— Ketul Parikh
fonte