Perché una funzione di perdita 0-1 è intrattabile?


12

Nel libro Deep Learning di Ian Goodfellow , è scritto questo

A volte, la funzione di perdita di cui ci preoccupiamo (diciamo, errore di classificazione) non può essere ottimizzata in modo efficiente. Ad esempio, minimizzare esattamente la perdita attesa 0-1 è generalmente intrattabile (esponenziale nella dimensione di input), anche per un classificatore lineare. In tali situazioni, in genere si ottimizza invece una funzione surrogata di perdita, che funge da proxy ma presenta vantaggi.

Perché la perdita 0-1 è intrattabile o come è esponenziale nelle dimensioni di input?

Risposte:


18

La funzione di perdita 0-1 è non convessa e discontinua, quindi non è possibile applicare metodi (sotto) gradiente. Per la classificazione binaria con un separatore lineare, questa funzione di perdita può essere formulata come ricerca della che minimizza il valore medio della funzione indicatore su tutti campioni. Questo è esponenziale negli ingressi, poiché poiché ci sono due possibili valori per ogni coppia, ci sono possibili configurazioni per controllareβ1(yiβxi0)i2nnpunti campione totali. Questo è noto per essere NP-difficile. Conoscere il valore corrente della funzione di perdita non fornisce alcun indizio su come è possibile modificare la soluzione corrente per migliorare, in quanto si potrebbe ricavare se fossero disponibili metodi a gradiente per funzioni convesse o continue.


1
Ottimo punto - in pratica la ricerca casuale o la ricerca esaustiva sono gli unici metodi che potrebbero essere utilizzati per trovare il minimo di tale funzione di perdita, giusto?
DeltaIV,

2
^^ o forse metodi di intelligenza evolutivi / basati sullo sciame?
Samra Irshad,

@samrairshad Sì, in effetti la perdita 0-1 non è così rara da vedere nei metodi evolutivi.
John Doucette,

Prima di saltare dalla ricerca casuale verso algoritmi evolutivi / sciami complessi, verificherei il metodo cross-entropy (CEM).
maxy,

1

L'errore di classificazione è infatti talvolta trattabile. Può essere ottimizzato in modo efficiente - anche se non esattamente - utilizzando il metodo Nelder-Mead, come mostrato in questo articolo:

https://www.computer.org/csdl/trans/tp/1994/04/i0420-abs.html

"La riduzione dimensionale è il processo di trasformazione dei vettori multidimensionali in uno spazio a bassa dimensione. Nel riconoscimento dei modelli, è spesso desiderato che questo compito venga eseguito senza una significativa perdita di informazioni sulla classificazione. L'errore Bayes è un criterio ideale per questo scopo; tuttavia, è noto per essere notoriamente difficile per il trattamento matematico. Di conseguenza, nella pratica sono stati utilizzati criteri non ottimali. Proponiamo un criterio alternativo, basato sulla stima dell'errore di Bayes, che si spera sia più vicino al criterio ottimale rispetto ai criteri attualmente in uso Un algoritmo per la riduzione della dimensione lineare, basato su questo criterio, è concepito e implementato. Gli esperimenti dimostrano le sue prestazioni superiori rispetto agli algoritmi convenzionali. "

L'errore Bayes menzionato qui è sostanzialmente la perdita 0-1.

Questo lavoro è stato svolto nel contesto della riduzione della dimensione lineare. Non so quanto sarebbe efficace per la formazione di reti di apprendimento profondo. Ma il punto è, e la risposta alla domanda: la perdita 0-1 non è universalmente intrattabile. Può essere ottimizzato relativamente bene per almeno alcuni tipi di modelli.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.