Mi scuso in anticipo per il fatto che sto ancora arrivando al passo con questo. Sto cercando di capire i pro e i contro dell'utilizzo di tanh (mappa da -1 a 1) vs. sigmoid (mappa da 0 a 1) per la mia funzione di attivazione del neurone. Dalla mia lettura sembrava una cosa minore con differenze marginali. In pratica per i miei problemi trovo che il sigmoid sia più facile da addestrare e stranamente, il sigmoid sembra trovare una soluzione generale migliore. Con questo intendo che quando la versione sigmoid viene eseguita, l'addestramento fa bene sul set di dati di riferimento (non addestrato), dove la versione tanh sembra essere in grado di ottenere le risposte corrette sui dati di allenamento mentre fa male sul riferimento. Questo è per la stessa architettura di rete.
Un'intuizione che ho è che con il sigmoide, è più facile che un neurone si spenga quasi completamente, senza fornire alcun input agli strati successivi. Il tanh ha un momento più difficile qui poiché ha bisogno di cancellare perfettamente i suoi input, altrimenti dà sempre un valore al livello successivo. Forse questa intuizione è sbagliata però.
Posta lunga In conclusione, qual è il commercio e dovrebbe fare una grande differenza?