L'applicazione della funzione softmax su un vettore produrrà "probabilità" e valori compresi tra e .
Ma possiamo anche dividere ogni valore per la somma del vettore e questo produrrà probabilità e valori tra e .
Ho letto la risposta qui, ma dice che il motivo è perché è differenziabile, sebbene entrambe le funzioni siano differenziabili.