Perché utilizziamo ReLU nelle reti neurali e come lo usiamo?

31

Perché utilizziamo unità lineari rettificate (ReLU) con reti neurali? In che modo migliora la rete neurale?

Perché diciamo che ReLU è una funzione di attivazione? Softmax non è la funzione di attivazione per le reti neurali? Immagino che usiamo sia ReLU che softmax, in questo modo:

neurone 1 con uscita softmax ----> ReLU sull'uscita del neurone 1, che è
input del neurone 2 ---> neurone 2 con uscita softmax -> ...

in modo che l'ingresso di neurone 2 sia sostanzialmente ReLU (softmax (x1)). È corretto?

neural-networks

— user2896492634
fonte

36

La funzione ReLU èDi solito questo viene applicato in termini di elementi all'output di qualche altra funzione, come un prodotto a matrice vettoriale. Negli usi MLP, le unità di raddrizzamento sostituiscono tutte le altre funzioni di attivazione tranne forse il livello di lettura. Ma suppongo che potresti mescolarli e abbinarli se vuoi. $f(x)=\max(0, x).$

Un modo in cui le ReLU migliorano le reti neurali è accelerare la formazione. Il calcolo del gradiente è molto semplice (0 o 1 a seconda del segno di $x$ ). Inoltre, il passaggio computazionale di una ReLU è semplice: tutti gli elementi negativi sono impostati su 0,0 - nessuna esponenziale, nessuna moltiplicazione o operazioni di divisione.

I gradienti delle reti logistiche e iperboliche tangenti sono più piccoli della parte positiva della ReLU. Ciò significa che la parte positiva viene aggiornata più rapidamente con il progredire della formazione. Tuttavia, questo ha un costo. Il gradiente 0 sul lato sinistro ha un suo problema, chiamato "neuroni morti", in cui un aggiornamento gradiente imposta i valori in entrata su una ReLU in modo tale che l'output sia sempre zero; le unità ReLU modificate come ELU (o Leaky ReLU o PReLU, ecc.) possono migliorare questo.

$\frac{d}{dx}\text{ReLU}(x)=1\forall x > 0$ . Al contrario, il gradiente di un'unità sigmoidea è al massimo di ; d'altra parte, prezzo migliore per gli input in una regione vicino a 0 da (circa). $0.25$ $\tanh$ $0.25 < \frac{d}{dx}\tanh(x) \le 1 \forall x \in [-1.31, 1.31]$

— Sycorax dice Reinstate Monica
fonte

@aginensky Puoi porre domande facendo clic sul pulsante Poni domanda nella parte superiore della pagina.

— Sycorax dice Ripristina Monica il

Non vedo alcuna prova che volevo porre una domanda o che ho partecipato a questa pagina. Francamente sono stupito di come ReLU funzioni bene, ma ho smesso di metterlo in discussione :).

— aginensky,

@aginensky Sembra che il commento sia stato rimosso nel frattempo.

— Sycorax dice Reinstate Monica il

Il commento non è stato rimosso da me né è stato informato. Ho smesso di rispondere alle domande e immagino che questo significhi che ho finito anche con i commenti.

— aginensky,

@aginensky Non so perché questo potrebbe farti smettere di commentare. In caso di domande su commenti e moderazione, è possibile porre una domanda in meta.stats.SE.

— Sycorax dice Ripristina Monica il

4

Una cosa importante da sottolineare è che ReLU è idempotente. Dato che ReLU è , è facile vedere che è vero per qualsiasi composizione finita . Questa proprietà è molto importante per le reti neurali profonde, poiché ogni strato della rete applica una non linearità. Ora, applichiamo due funzioni della famiglia sigmoid allo stesso input ripetutamente 1-3 volte: $\rho(x) = \max(0, x)$ $\rho \circ \rho \circ \rho \circ \dots \circ \rho = \rho$

Puoi immediatamente vedere che le funzioni sigmoid "schiacciano" i loro input causando il problema del gradiente evanescente: le derivate si avvicinano a zero mentre (il numero di applicazioni ripetute) si avvicina all'infinito. $n$

— Eli Korvigo
fonte

0

ReLU è la funzione max (x, 0) con input x ad es. Matrice da un'immagine contorta. ReLU imposta quindi tutti i valori negativi nella matrice x su zero e tutti gli altri valori vengono mantenuti costanti.

ReLU viene calcolato dopo la convoluzione e quindi una funzione di attivazione non lineare come tanh o sigmoid.

Softmax è un classificatore alla fine della rete neurale. Questa è la regressione logistica per regolarizzare gli output su valori compresi tra 0 e 1. (L'alternativa qui è un classificatore SVM).

Forward Forward CNN es: input-> conv-> ReLU-> Pool-> conv-> ReLU-> Pool-> FC-> softmax

— Randy Welt
fonte

8

Downvoting. Questa è una pessima risposta! Softmax non è un classificatore! È una funzione che normalizza (ridimensiona) le uscite nell'intervallo [0,1] e garantisce che si sommino a 1. La regressione logistica non "regolarizza" nulla! La frase "ReLU viene calcolata dopo la convoluzione e quindi una funzione di attivazione non lineare come tanh o sigmoid". manca un verbo o senso.

— Jan Kukacka, il

1

La risposta non è poi così male. La frase senza il verbo deve essere "relu viene calcolato dopo la convoluzione e IS quindi una funzione di attivazione non lineare come tanh o sigma." Anche pensare al softmax come a un classificatore ha senso. Può essere visto come un classificatore probabilistico che assegna una probabilità a ciascuna classe. "Regolarizza" / "normalizza" le uscite nell'intervallo [0,1].

— user118967

0

ReLU è un interruttore letterale. Con un interruttore elettrico 1 volt in dà 1 volt in uscita, n volt in dà n volt in uscita quando è acceso. On / Off quando si decide di passare a zero fornisce esattamente lo stesso grafico di ReLU. La somma ponderata (punto prodotto) di un numero di somme ponderate è ancora un sistema lineare. Per un particolare ingresso, gli interruttori ReLU sono attivati o disattivati singolarmente. Ciò si traduce in una particolare proiezione lineare dall'ingresso all'uscita, poiché varie somme ponderate della somma ponderata di ... sono collegate tra loro dagli interruttori. Per un particolare input e un particolare neurone di output esiste un sistema composto di somme ponderate che in realtà possono essere riassunte in una singola somma ponderata effettiva. Poiché gli interruttori ReLU si dichiarano a zero, non ci sono discontinuità improvvise nell'output per cambiamenti graduali nell'input.

Esistono altri algoritmi di somma ponderata numericamente efficiente (punto prodotto) come la trasformazione FFT e Walsh Hadamard. Non vi è alcun motivo per cui non è possibile incorporarli in una rete neurale basata su ReLU e beneficiare dei vantaggi computazionali. (es. reti neurali fisse di banchi filtro.)

— Sean O'Connor
fonte