Perché utilizziamo unità lineari rettificate (ReLU) con reti neurali? In che modo migliora la rete neurale?
Perché diciamo che ReLU è una funzione di attivazione? Softmax non è la funzione di attivazione per le reti neurali? Immagino che usiamo sia ReLU che softmax, in questo modo:
neurone 1 con uscita softmax ----> ReLU sull'uscita del neurone 1, che è
input del neurone 2 ---> neurone 2 con uscita softmax -> ...
in modo che l'ingresso di neurone 2 sia sostanzialmente ReLU (softmax (x1)). È corretto?