La normalizzazione batch ha senso per una funzione di attivazione ReLU?


10

La normalizzazione in lotti è descritta in questo documento come una normalizzazione dell'input in una funzione di attivazione con variabili di scala e spostamentoγ e β. Questo documento descrive principalmente l'uso della funzione di attivazione sigmoid, che ha senso. Tuttavia, mi sembra che alimentare un input dalla distribuzione normalizzata prodotta dalla normalizzazione batch in una funzione di attivazione ReLU dimax(0,x) è rischioso se βnon impara a spostare la maggior parte degli input oltre lo 0 in modo tale che ReLU non stia perdendo le informazioni di input. Vale a dire se l'input per la ReLU fosse solo normalizzato standard, perderemmo molte delle nostre informazioni al di sotto di 0. Esistono garanzie o inizializzazioni diβche garantirà che non perdiamo queste informazioni? Mi sto perdendo qualcosa su come funzionano le operazioni di BN e ReLU?

Risposte:


3

Questo è noto un problema con le funzioni di attivazione di ReLU. Viene spesso chiamato "ReLU morente". Dato un input oltre il limite zero, l'unità ora è quasi sempre chiusa. Una ReLU chiusa non può aggiornare i suoi parametri di input, una ReLU morta rimane morta.

La soluzione consiste nell'utilizzare varianti di ReLU per la funzione di attivazione come Leaky ReLU, Noisy ReLU o ELU .


1

Direi che BN segue la ReLU e non prima, in generale dovrebbe essere inserito tra 2 livelli in modo da normalizzare l'output PDF del livello prima di diventare un altro input di livello

L'elaborazione convolutiva del livello è composta da un'elaborazione Lin (Conv Operator) + NonLin (ad es. ReLU) (come l'elaborazione del neurone artificiale) e una nonlin sparsificante come ReLU produce un PDF di output che non è negativo a causa del filtraggio, quindi prima passandolo come input del layer successivo il BN può aiutare a rinormalizzarlo

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.