La funzione di attivazione dovrebbe essere monotona nelle reti neurali?


8

Molte funzioni di attivazione nelle reti neurali (sigmoide, tanh, softmax) sono monotone, continue e differenziabili (tranne che per un paio di punti, dove non esiste la derivata).

Capisco il motivo della continuità e della differenziabilità, ma non riesco davvero a capire un motivo della monotonisità.

Risposte:


8

Durante la fase di allenamento, la backpropagation informa ogni neurone di quanto dovrebbe influenzare ogni neurone nello strato successivo. Se la funzione di attivazione non è monotonica, l'aumento del peso del neurone potrebbe causare una minore influenza, l'opposto di quanto previsto. Il risultato sarebbe un comportamento selettivo durante l'allenamento, con la probabilità che la rete converga in uno stato che produce un classificatore accurato.


1
Giusto per chiarire: la discesa gradiente trova un minimo locale anche con funzioni di attivazione monotona. Potrebbe richiedere solo più tempo.
Martin Thoma,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.