Perché le unità lineari rettificate sono considerate non lineari?

Perché le funzioni di attivazione delle unità lineari rettificate (ReLU) sono considerate non lineari?

f (x) = max (0, x)

$f(x) = \max(0,x)$

Sono lineari quando l'input è positivo e dalla mia comprensione per sbloccare il potere rappresentativo delle reti profonde, le attivazioni non lineari sono un must, altrimenti l'intera rete potrebbe essere rappresentata da un singolo strato.

neural-networks deep-learning

— Aly
fonte

C'è una domanda simile fatta prima: stats.stackexchange.com/questions/275358/… anche se probabilmente non è un duplicato

— Aksakal

Le RELU sono non linearità. Per aiutare il tuo intuito, considera una rete molto semplice con 1 unità di input $x$ , 2 unità nascoste $y_i$ e 1 unità di output $z$ . Con questa semplice rete potremmo implementare una funzione a valore assoluto,

z = max (0, X) + max (0, - X),

$z = \max(0, x) + \max(0, -x),$

o qualcosa di simile alla funzione sigmoide comunemente usata,

z = max (0, X + 1) - max (0, X - 1) .

$z = \max(0, x + 1) - \max(0, x - 1).$

Combinandoli in reti più grandi / utilizzando più unità nascoste, possiamo approssimare funzioni arbitrarie.

$\hskip2in$ Funzione di rete RELU

— Lucas
fonte

Questi tipi di ReLus costruiti a mano verrebbero costruiti apriori e codificati come strati? In tal caso, come faresti a sapere che la tua rete richiedeva in particolare uno di questi ReLus appositamente costruiti?

— Monica Heddneck,

@MonicaHeddneck È possibile specificare le proprie non linearità, sì. Ciò che rende una funzione di attivazione migliore di un'altra è un argomento di ricerca costante. Ad esempio, usavamo i sigmoidi, , ma poi a causa del problema del gradiente evanescente, le ReLUs sono diventate più popolari. Quindi spetta a te utilizzare diverse funzioni di attivazione non linearità.

σ (x) = \frac{1}{1 + e^{- x}}

$\sigma(x) = \frac{1}{1 + e^{-x}}$

— Tarin Ziyaee,

Come si approssimerebbe con ReLU fuori campione?

e^{x}

$e^x$

— Aksakal,

@Lucas, Quindi fondamentalmente se combiniamo (+)> 1 ReLUs possiamo approssimare qualsiasi funzione, ma se semplicemente reLu(reLu(....))sarà sempre lineare? Inoltre, qui si xpassa a x+1, quello potrebbe essere pensato come Z=Wx+bdove W & b cambia per dare diverse varianti di questo tipo x& x+1?

— anu