La funzione di attivazione dovrebbe essere monotona nelle reti neurali?

Molte funzioni di attivazione nelle reti neurali (sigmoide, tanh, softmax) sono monotone, continue e differenziabili (tranne che per un paio di punti, dove non esiste la derivata).

Capisco il motivo della continuità e della differenziabilità, ma non riesco davvero a capire un motivo della monotonisità.

machine-learning neural-networks

— Salvador Dalì
fonte

Durante la fase di allenamento, la backpropagation informa ogni neurone di quanto dovrebbe influenzare ogni neurone nello strato successivo. Se la funzione di attivazione non è monotonica, l'aumento del peso del neurone potrebbe causare una minore influenza, l'opposto di quanto previsto. Il risultato sarebbe un comportamento selettivo durante l'allenamento, con la probabilità che la rete converga in uno stato che produce un classificatore accurato.

— Kyle Jones
fonte

Giusto per chiarire: la discesa gradiente trova un minimo locale anche con funzioni di attivazione monotona. Potrebbe richiedere solo più tempo.

— Martin Thoma,