Nel libro Deep Learning di Ian Goodfellow , è scritto questo
A volte, la funzione di perdita di cui ci preoccupiamo (diciamo, errore di classificazione) non può essere ottimizzata in modo efficiente. Ad esempio, minimizzare esattamente la perdita attesa 0-1 è generalmente intrattabile (esponenziale nella dimensione di input), anche per un classificatore lineare. In tali situazioni, in genere si ottimizza invece una funzione surrogata di perdita, che funge da proxy ma presenta vantaggi.
Perché la perdita 0-1 è intrattabile o come è esponenziale nelle dimensioni di input?