Comprensione del dropout e della discesa del gradiente


9

Sto osservando come implementare il dropout su una rete neurale profonda e ho trovato qualcosa di contro intuitivo. Nella fase di avanzamento della maschera di dropout attivazioni con un tensore casuale di 1 e 0 secondi per forzare la rete ad apprendere la media dei pesi. Questo aiuta la rete a generalizzare meglio. Ma durante la fase di aggiornamento della discesa del gradiente le attivazioni non vengono mascherate. Questo per me sembra contro intuitivo. Se maschera le attivazioni delle connessioni con dropout, perché non dovrei mascherare la fase di discesa del gradiente?


Non sono sicuro di dove hai trovato un riferimento che mostra il dropout usato per mascherare i pesi ? Penso che sia errato.
Neil Slater,

hai ragione, ho usato il concetto sbagliato.
emanuele,

Risposte:


6

Nel dropout come descritto in http://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf , i pesi non sono mascherati. Invece, le attivazioni dei neuroni sono mascherate, ad esempio quando viene presentato per l'allenamento (cioè la maschera è randomizzata per ogni corsa in avanti e backprop gradiente, mai ripetuta).

Le attivazioni vengono mascherate durante il passaggio in avanti e i calcoli del gradiente utilizzano la stessa maschera durante la propagazione all'indietro di quell'esempio. Questo può essere implementato come un modificatore all'interno di una descrizione del livello o come un livello di abbandono separato.

Durante la fase di aggiornamento del peso, in genere applicata su un mini-batch (in cui a ciascun esempio sarebbe stata applicata una maschera diversa) non è più necessario utilizzare maschere di eliminazione. I valori di gradiente utilizzati per l'aggiornamento sono già stati influenzati dalle maschere applicate durante la propagazione posteriore.

Ho trovato un utile riferimento per imparare come funziona il dropout, forse per implementare te stesso, la Deep Learn Toolbox per Matlab / Octave.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.