Ho letto altrove che la scelta della funzione di attivazione del livello nascosto in un NN dovrebbe essere basata sul bisogno di uno , cioè se hai bisogno di valori nell'intervallo da -1 a 1 usa tanh e usa sigmoid per l'intervallo da 0 a 1.
La mia domanda è: come si fa a sapere qual è il proprio bisogno ? Si basa sull'intervallo del livello di input, ad esempio utilizzare la funzione che può comprendere l'intero intervallo di valori del livello di input o in qualche modo riflette la distribuzione del livello di input (funzione gaussiana)? O il bisogno è un problema / dominio specifico e per fare questa scelta è necessaria la propria esperienza / giudizio? O è semplicemente "utilizzare ciò che dà il miglior errore di addestramento minimo convalidato in modo incrociato?"
1 + (1 / exp(-sum))
. Rendere la necessità molto difficile da capire senza provare entrambi su ciascun set di dati. La necessità così come la descrivi qui è legata alla relazione effettiva che si sta imparando, cioè un set di dati binari imparerà più velocemente o per niente date diverse attivazioni.