Durante l'allenamento di una rete neurale mediante l'algoritmo di retro-propagazione, il metodo di discesa del gradiente viene utilizzato per determinare gli aggiornamenti del peso. La mia domanda è: anziché utilizzare il metodo di discesa gradiente per individuare lentamente il punto minimo rispetto a un determinato peso, perché non impostare semplicemente la derivata e trova il valore di pesowche minimizza l'errore?
Inoltre, perché siamo sicuri che la funzione di errore nella retro-propagazione sarà minima? Non si scopre invece che la funzione di errore è un massimo? Esiste una proprietà specifica delle funzioni di compressione che garantisce che una rete con un numero qualsiasi di nodi nascosti con pesi e vettori di input arbitrari fornirà sempre una funzione di errore con alcuni minimi?