Normalizzazione degli input per i neuroni ReLU


9

Secondo "Efficient Backprop" di LeCun et al (1998) è buona norma normalizzare tutti gli input in modo che siano centrati attorno a 0 e rientrino nell'intervallo della seconda derivata massima. Quindi, per esempio, useremmo [-0.5,0.5] per la funzione "Tanh". Questo per aiutare il progresso della retro-propagazione man mano che l'Assia diventa più stabile.

Tuttavia, non ero sicuro di cosa fare con i neuroni del raddrizzatore che sono max (0, x). (Anche con la funzione logistica da allora vorremmo qualcosa come [0.1.0.9] tuttavia che non sia centrato su 0)

Risposte:


7

Per quanto ne so, la cosa più vicina a ciò che potresti cercare è questo recente articolo dei ricercatori di Google: Normalizzazione batch: accelerazione della formazione di reti profonde mediante riduzione dello spostamento interno della covariata .

Normalizzazione in lotti

lyl=f(WX+B)fW,BX

Quello che fa la normalizzazione batch (BN) è il seguente:

  1. WX+BX^X^WX+B
  2. X^γX^+β.
  3. y^l=f(γX^+β)

Quindi, BN standardizza gli output di attivazione "grezzi" (leggi: prima di applicare la non linearità) per avere zero medio, varianza 1, quindi applichiamo una trasformazione affine appresa e infine applichiamo la non linearità. In un certo senso possiamo interpretare questo come consentire alla rete neurale di apprendere un'appropriata distribuzione parametrica dell'input alla non linearità.

γ,β

Motivazione della trasformazione affine

βγ

Prima standardizzare

γ,β, in effetti hanno appreso una trasformazione in cui hanno utilizzato la trasformazione dell'identità come riferimento o base per il confronto. I coautori di Microsoft credevano che avere questo riferimento o questa base aiutasse a pre-condizionare il problema. Non credo che sia troppo inverosimile chiedersi se qualcosa di simile si sta verificando qui con BN e il passaggio iniziale di standardizzazione.

Applicazioni BN

Un risultato particolarmente interessante è che utilizzando la normalizzazione batch, il team di Google è stato in grado di ottenere una rete Tanh Inception per allenarsi su ImageNet e ottenere risultati piuttosto competitivi. Tanh è una non linearità satura ed è stato difficile far apprendere questo tipo di reti a causa del loro problema di saturazione / sfumature sfumate. Tuttavia, usando la normalizzazione in lotti, si può presumere che la rete sia stata in grado di apprendere una trasformazione che associ i valori dell'uscita di attivazione al regime non saturo delle non linearità della tanh.

Note finali

Fanno anche riferimento allo stesso factoide Yann LeCun che hai menzionato come motivazione per la normalizzazione in lotti.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.