Sto osservando come implementare il dropout su una rete neurale profonda e ho trovato qualcosa di contro intuitivo. Nella fase di avanzamento della maschera di dropout attivazioni con un tensore casuale di 1 e 0 secondi per forzare la rete ad apprendere la media dei pesi. Questo aiuta la rete a generalizzare meglio. Ma durante la fase di aggiornamento della discesa del gradiente le attivazioni non vengono mascherate. Questo per me sembra contro intuitivo. Se maschera le attivazioni delle connessioni con dropout, perché non dovrei mascherare la fase di discesa del gradiente?