Ho letto molto sulle reti neurali convolutive e mi chiedevo come evitare il problema del gradiente in via di estinzione. So che le reti di credenze profonde impilano autocodificatori a livello singolo o altre reti poco profonde pre-addestrate e posso quindi evitare questo problema, ma non so come evitarlo nelle CNN.
Secondo Wikipedia :
"nonostante il summenzionato" problema del gradiente di scomparsa ", la potenza di elaborazione superiore delle GPU rende possibile la semplice retro-propagazione per reti neurali feedforward profonde con molti livelli".
Non capisco perché l'elaborazione GPU rimuova questo problema?
GPU's are fast correlated with vanishing gradients, posso capire la logica veloce con una grande larghezza di banda di memoria per elaborare moltiplicazioni di matrici multiple! ma potresti spiegare cosa c'entra con i derivati? Il problema del gradiente evanescente sembra fare di più con l'inizializzazione del peso , no?