Quando utilizzare (He o Glorot) inizializzazione normale su init uniforme? E quali sono i suoi effetti con la normalizzazione batch?

51

Sapevo che Residual Network (ResNet) rendeva popolare la normale inizializzazione. In ResNet viene utilizzata l'inizializzazione normale He ~~, mentre il primo livello utilizza l'inizializzazione uniforme He.~~

Ho esaminato il documento ResNet e il documento "Delving Deep into Rectifiers" (He, documento di inizializzazione), ma non ho trovato alcuna menzione sul normale init vs init uniforme.

Anche:

La normalizzazione in batch ci consente di utilizzare tassi di apprendimento molto più elevati e di prestare meno attenzione all'inizializzazione.

Nell'abstract di Batch Normalization, si dice che la normalizzazione in batch ci consente di stare meno attenti all'inizializzazione.

~~ResNet stesso si preoccupa ancora di usare init normale vs init uniforme (piuttosto che usare solo init uniforme).~~

Così:

Quando utilizzare l'inizializzazione a distribuzione normale (He o Glorot) su inizializzazione uniforme?
Quali sono gli effetti di inizializzazione distribuiti normalmente con la normalizzazione batch?

Note a parte:

Fa rima per usare l'init normale con la normalizzazione in lotti, ma non ho trovato alcun documento a sostegno di questo fatto.
Sapevo che ResNet utilizza He init su Glorot init perché init fa meglio su una rete profonda.
Ho capito di Glorot init vs He init .
La mia domanda riguarda Init normale o uniforme.

neural-network deep-learning normalization

— rilut
fonte

34

L'init normale vs uniforme sembra in effetti piuttosto poco chiaro.

Se ci riferiamo esclusivamente ai documenti di inizializzazione di Glorot e He , entrambi usano un'analitica analisi teorica simile: trovano una buona varianza per la distribuzione da cui vengono estratti i parametri iniziali. Questa varianza è adattata alla funzione di attivazione utilizzata e viene derivata senza considerare esplicitamente il tipo di distribuzione. Pertanto, le loro conclusioni teoriche valgono per qualsiasi tipo di distribuzione della varianza determinata. Infatti, nella carta Glorot, viene utilizzata una distribuzione uniforme mentre nella carta He è scelta una gaussiana. L'unica "spiegazione" fornita per questa scelta nel documento He è:

Le recenti CNN profonde sono per lo più inizializzate da pesi casuali estratti dalle distribuzioni gaussiane

con riferimento al documento AlexNet . È stato effettivamente rilasciato un po 'più tardi dell'inizializzazione di Glorot, ma tuttavia non vi sono giustificazioni in merito all'uso di una distribuzione normale.

In effetti, in una discussione sul tracker dei problemi di Keras , sembrano anche essere un po 'confusi e fondamentalmente potrebbe essere solo una questione di preferenza ... (cioè ipoteticamente Bengio preferirebbe una distribuzione uniforme mentre Hinton preferirebbe quelli normali ...) Una discussione, c'è un piccolo punto di riferimento che confronta l'inizializzazione di Glorot usando una distribuzione uniforme e gaussiana. Alla fine, sembra che l'uniforme vince ma non è molto chiaro.

Nel documento originale ResNet , dice solo che hanno usato un init gaussiano per tutti i livelli, non sono riuscito a trovare dove è scritto che hanno usato un init uniforme per il primo livello. (forse potresti condividere un riferimento a questo?)

Per quanto riguarda l'uso di init gaussiano con la normalizzazione batch, beh, con BN il processo di ottimizzazione è meno sensibile all'inizializzazione, quindi è solo una convenzione, direi.

— tlorieul
fonte

L'ho letto male. Hai ragione sul fatto che ResNet non utilizza alcuna inizializzazione uniforme. Sono corretto.

— Rilut

0

Si prega di prendere una lettura Iperparametri in Azione! Parte II - Inizializzatori di peso

— rocksyne
fonte

1

Per favore, evita di pubblicare solo link. Qualsiasi link può diventare morto dopo un po 'e i nuovi lettori non saranno in grado di controllare la risposta. Puoi pubblicare un link, ma aggiungi sempre anche un riepilogo della parte più importante come testo.

— Tasos

@Tasos commento ben notato. C'erano troppe informazioni per riassumere ed è per questo che ho pubblicato il link invece e ottengo il tuo punto sui collegamenti interrotti. Grazie.

— rocksyne,