In matematica una funzione viene considerato lineare quando il fucntion se per ogni ed nel dominio ha la seguente struttura: . Per definizione, ReLU è . Pertanto, se dividiamo il dominio da o la funzione è lineare. Tuttavia, è facile vedere che . Quindi per definizione ReLU non è lineare. f: A → BXyUNf( x ) + f( y) = f( x + y)m a x ( 0 , x )( - ∞ , 0 ][ 0 , ∞ )f( - 1 ) + f( 1 ) ≠ f( 0 )
Tuttavia, ReLU è così vicino al lineare che questo spesso confonde le persone e si chiede come possa essere usato come un approssimatore universale. Nella mia esperienza, il modo migliore per pensarci è come fare le somme di Riemann. È possibile approssimare qualsiasi funzione continua con molti piccoli rettangoli. Le attivazioni ReLU possono produrre molti piccoli rettangoli. In pratica, in pratica, ReLU può creare forme piuttosto complicate e approssimare molti domini complicati.
Ho anche voglia di chiarire un altro punto. Come sottolineato da una risposta precedente, i neuroni non muoiono in Sigmoid, ma svaniscono. La ragione di ciò è perché al massimo la derivata della funzione sigmoide è .25. Quindi, dopo così tanti strati finisci per moltiplicare questi gradienti e il prodotto di numeri molto piccoli meno di 1 tende ad andare a zero molto rapidamente.
Quindi, se stai costruendo una rete di apprendimento profondo con molti livelli, le tue funzioni sigmoidi rimarranno sostanzialmente stagnanti piuttosto rapidamente e diventeranno più o meno inutili.
La chiave da asporto è la scomparsa viene dal moltiplicare i gradienti e non i gradienti stessi.