Ho letto molto sulle reti neurali convolutive e mi chiedevo come evitare il problema del gradiente in via di estinzione. So che le reti di credenze profonde impilano autocodificatori a livello singolo o altre reti poco profonde pre-addestrate e posso quindi evitare questo problema, ma non so come evitarlo nelle CNN.
Secondo Wikipedia :
"nonostante il summenzionato" problema del gradiente di scomparsa ", la potenza di elaborazione superiore delle GPU rende possibile la semplice retro-propagazione per reti neurali feedforward profonde con molti livelli".
Non capisco perché l'elaborazione GPU rimuova questo problema?
GPU's are fast correlated with vanishing gradients
, posso capire la logica veloce con una grande larghezza di banda di memoria per elaborare moltiplicazioni di matrici multiple! ma potresti spiegare cosa c'entra con i derivati? Il problema del gradiente evanescente sembra fare di più con l'inizializzazione del peso , no?