Quali sono gli impatti della scelta delle diverse funzioni di perdita nella classificazione per approssimare la perdita 0-1


27

Sappiamo che alcune funzioni oggettive sono più facili da ottimizzare e altre difficili. E ci sono molte funzioni di perdita che vogliamo usare ma difficili da usare, ad esempio la perdita 0-1. Quindi troviamo alcune funzioni di perdita proxy per fare il lavoro. Ad esempio, usiamo la perdita della cerniera o la perdita logistica per "approssimare" la perdita 0-1.

La trama seguente proviene dal libro PRML di Chris Bishop . La perdita della cerniera è tracciata in blu, la perdita del registro in rosso, la perdita quadrata in verde e l'errore 0/1 in nero.

inserisci qui la descrizione dell'immagine

Capisco il motivo per cui abbiamo un tale design (per cerniera e perdita logistica) è che vogliamo che la funzione oggettiva sia convessa.

Osservando la perdita della cerniera e la perdita logistica, penalizza maggiormente le istanze fortemente classificate erroneamente e, cosa interessante, penalizza anche le istanze correttamente classificate se sono debolmente classificate . È un design davvero strano.

La mia domanda è: quali sono i prezzi che dobbiamo pagare usando diverse "funzioni di perdita del proxy", come la perdita della cerniera e la perdita logistica?


In regressione, la scelta della perdita quadrata è più facile da eseguire l'ottimizzazione rispetto alla perdita di valore assoluto. Ma la perdita al quadrato è più sensibile ai valori anomali. Quindi, dovrebbe essere sensibile anche a determinati tipi di dati?
Haitao Du,

4
Una soluzione più semplice è sviluppare probabilità previste ottimali che non richiedono una funzione di utilità. La funzione utilità / perdita può essere applicata in seguito dall'effettivo decisore. La classificazione equivale a prendere la decisione del decisore e richiede troppe conoscenze in anticipo.
Frank Harrell,

@FrankHarrell Grazie, e sto usando l'approccio che hai menzionato al lavoro, in cui separiamo le previsioni e le operazioni aziendali. Tuttavia, questo non è ancora ottimizzato nel suo complesso, ma una soluzione locale avida sul palco, giusto? È una "politica dello struzzo"?
Haitao Du,

2
Potrebbe non portare a decisioni ottimali. La funzione perdita / utilità / costo non proviene dai predittori del modello.
Frank Harrell,

1
+1. La minimizzazione della perdita logistica corrisponde alla massimizzazione della probabilità binomiale. Ridurre al minimo la perdita di errori al quadrato corrisponde a massimizzare la probabilità gaussiana (è solo una regressione OLS; per la classificazione di 2 classi è effettivamente equivalente a LDA). Sai se minimizzare la perdita della cerniera corrisponde a massimizzare qualche altra probabilità? Cioè c'è qualche modello probabilistico corrispondente alla perdita della cerniera?
ameba dice Ripristina Monica il

Risposte:


16

Alcuni dei miei pensieri, tuttavia, potrebbero non essere corretti.

Capisco il motivo per cui abbiamo un tale design (per cerniera e perdita logistica) è che vogliamo che la funzione oggettiva sia convessa.

La convessità è sicuramente una bella proprietà, ma penso che il motivo più importante sia che vogliamo che la funzione obiettivo abbia derivati ​​diversi da zero , in modo da poter utilizzare i derivati ​​per risolverlo. La funzione obiettiva può essere non convessa, nel qual caso ci fermiamo spesso in alcuni punti locali di optima o sella.

e, interessante, penalizza anche le istanze correttamente classificate se sono debolmente classificate. È un design davvero strano.

Penso che questo tipo di progettazione consenta al modello non solo di fare le previsioni giuste, ma anche di essere fiducioso delle previsioni. Se non vogliamo punire le istanze correttamente classificate, possiamo ad esempio spostare di 1 la perdita della cerniera (blu) a sinistra, in modo che non subiscano più alcuna perdita. Ma credo che ciò porti spesso a risultati peggiori in pratica.

quali sono i prezzi che dobbiamo pagare utilizzando diverse "funzioni di perdita proxy", come la perdita della cerniera e la perdita logistica?

Scegliendo diverse funzioni di perdita IMO stiamo introducendo ipotesi diverse nel modello. Ad esempio, la perdita di regressione logistica (rossa) assume una distribuzione di Bernoulli, la perdita MSE (verde) assume un rumore gaussiano.


Seguendo l'esempio di regressione dei minimi quadrati e della logistica in PRML, ho aggiunto la perdita della cerniera per il confronto. inserisci qui la descrizione dell'immagine

Come mostrato nella figura, la perdita della cerniera e la regressione logistica / entropia incrociata / verosimiglianza / softplus hanno risultati molto vicini, perché le loro funzioni oggettive sono vicine (figura sotto), mentre l'MSE è generalmente più sensibile agli outlier. La perdita della cerniera non ha sempre una soluzione unica perché non è strettamente convessa.

inserisci qui la descrizione dell'immagine

Tuttavia, una proprietà importante della perdita della cerniera è che i punti di dati lontani dal limite della decisione non contribuiscono alla perdita, la soluzione sarà la stessa con quei punti rimossi.

I punti rimanenti sono chiamati vettori di supporto nel contesto di SVM. Considerando che SVM utilizza un termine regolarizzatore per garantire la proprietà del margine massimo e una soluzione unica.


Grazie per la risposta. È possibile creare alcune demo per mostrare in modo intuitivo l'impatto di diverse perdite? Proprio come mostriamo l'impatto dei valori anomali della regressione usando la perdita quadrata rispetto alla perdita minima assoluta.
Haitao Du,

@ hxd1011, prego, proverò ad aggiungere alcune demo in seguito.
dontloo,

2
La perdita della cerniera è convessa ...
Mustafa S Eisa,

1
@ MustafaM.Eisa giusto, grazie, intendevo non strettamente convesso ..
dontloo,

@dontloo ottima simulazione! Grazie. Proverò anche a caricare alcune delle mie simulazioni in seguito.
Haitao Du,

6

Pubblicare una risposta in ritardo, poiché esiste una risposta molto semplice che non è stata ancora menzionata.

quali sono i prezzi che dobbiamo pagare utilizzando diverse "funzioni di perdita proxy", come la perdita della cerniera e la perdita logistica?

Quando si sostituisce la funzione di perdita 0-1 non convessa con un surrogato convesso (ad es. Perdita della cerniera), in realtà si sta risolvendo un problema diverso da quello che si intendeva risolvere (che è quello di ridurre al minimo il numero di errori di classificazione). In questo modo si ottiene la tracciabilità computazionale (il problema diventa convesso, il che significa che è possibile risolverlo in modo efficiente utilizzando strumenti di ottimizzazione convessa), ma nel caso generale non esiste alcun modo per correlare l'errore del classificatore che minimizza una perdita "proxy" e il errore del classificatore che minimizza la perdita 0-1 . Se ciò che ti interessava veramente era ridurre al minimo il numero di classificazioni errate, sostengo che questo è davvero un grande prezzo da pagare.

D


1

Idealmente, la funzione di perdita dovrebbe riflettere la perdita effettiva subita dall'azienda. Ad esempio, se stai classificando merci danneggiate, la perdita di classificazione errata potrebbe essere così:

  • marcatura di beni danneggiati che non lo erano: perdita di guadagno sulla vendita potenziale
  • non contrassegnare le merci danneggiate che sono state danneggiate: costi di elaborazione del reso
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.