Attualmente mi sto preparando per un esame sulle reti neurali. In diversi protocolli degli esami precedenti ho letto che le funzioni di attivazione dei neuroni (nei percetroni multistrato) devono essere monotoniche.
Comprendo che le funzioni di attivazione dovrebbero essere differenziabili, avere una derivata che non è 0 sulla maggior parte dei punti ed essere non lineare. Non capisco perché essere monotonici sia importante / utile.
Conosco le seguenti funzioni di attivazione e che sono monotoniche:
- Relu
- sigmoid
- tanh
- Softmax: non sono sicuro che la definizione di monotonicità sia applicabile per le funzioni con
- SoftPlus
- (Identità)
Tuttavia, non riesco ancora a vedere alcun motivo per cui ad esempio .
Perché le funzioni di attivazione devono essere monotoniche?
(Domanda correlata: c'è qualche motivo per cui la funzione logaritmo / esponenziale non viene utilizzata come funzione di attivazione?)