Due funzioni di attivazione comuni utilizzate nell'apprendimento profondo sono la funzione tangente iperbolica e la funzione di attivazione sigmoidea. Capisco che la tangente iperbolica è solo un riscalamento e una traduzione della funzione sigmoide:
.
Esiste una differenza significativa tra queste due funzioni di attivazione, e in particolare quando è preferibile l'una all'altra ?
Mi rendo conto che in alcuni casi (come quando si stimano le probabilità) i risultati nel range di sono più convenienti delle uscite che vanno da . Voglio sapere se ci sono differenze diverse dalla convenienza che distinguono le due funzioni di attivazione.