Mentre la scelta delle funzioni di attivazione per il livello nascosto è abbastanza chiara (principalmente sigma o tanh), mi chiedo come decidere la funzione di attivazione per il livello di output. Le scelte comuni sono funzioni lineari, funzioni sigmoidi e funzioni softmax. Tuttavia, quando dovrei usare quale?