Quindi, attualmente le funzioni di attivazione più comunemente utilizzate sono quelle di Re-Lu. Quindi ho risposto a questa domanda Qual è lo scopo di una funzione di attivazione in Neural Networks? e mentre scrivevo la risposta mi ha colpito, come può esattamente la funzione non lineare approssimativa di Re-Lu?
Per pura definizione matematica, certo, è una funzione non lineare a causa della curva acuta, ma se ci limitiamo alla parte positiva o negativa dell'asse x, allora è lineare in quelle regioni. Diciamo che prendiamo anche l'intero asse x, quindi anche un po 'lineare (non in senso matematico rigoroso) nel senso che non può approssimare in modo soddisfacente funzioni curvilinee come l'onda sinusoidale ( 0 --> 90
) con un singolo strato nascosto come è possibile da un sigmoide funzione di attivazione.
Allora, qual è l'intuizione dietro il fatto che i Re-Lu sono usati in NN, offrendo prestazioni soddisfacenti (non sto chiedendo lo scopo di quelli di Re-lu) anche se sono un po 'lineari? Oppure a volte funzioni non lineari come sigmoide e tanh nel mezzo della rete?
EDIT: Secondo il commento di @ Eka Re-Lu deriva la sua capacità dalla discontinuità che agisce negli strati profondi della rete neurale. Questo significa che i Re-Lu sono buoni fintanto che li usiamo nei Deep NN e non in quelli poco profondi?
max(0,x)
agire in strati profondi della rete neurale. C'è una ricerca openai in cui hanno calcolato le funzioni non lineari usando una rete lineare profonda ecco il link blog.openai.com/nonlinear-computation-in-linear-networks