Sapevo che Residual Network (ResNet) rendeva popolare la normale inizializzazione. In ResNet viene utilizzata l'inizializzazione normale He , mentre il primo livello utilizza l'inizializzazione uniforme He.
Ho esaminato il documento ResNet e il documento "Delving Deep into Rectifiers" (He, documento di inizializzazione), ma non ho trovato alcuna menzione sul normale init vs init uniforme.
Anche:
La normalizzazione in batch ci consente di utilizzare tassi di apprendimento molto più elevati e di prestare meno attenzione all'inizializzazione.
Nell'abstract di Batch Normalization, si dice che la normalizzazione in batch ci consente di stare meno attenti all'inizializzazione.
ResNet stesso si preoccupa ancora di usare init normale vs init uniforme (piuttosto che usare solo init uniforme).
Così:
- Quando utilizzare l'inizializzazione a distribuzione normale (He o Glorot) su inizializzazione uniforme?
- Quali sono gli effetti di inizializzazione distribuiti normalmente con la normalizzazione batch?
Note a parte:
- Fa rima per usare l'init normale con la normalizzazione in lotti, ma non ho trovato alcun documento a sostegno di questo fatto.
- Sapevo che ResNet utilizza He init su Glorot init perché init fa meglio su una rete profonda.
- Ho capito di Glorot init vs He init .
- La mia domanda riguarda Init normale o uniforme.