perdita della cerniera rispetto alla perdita logistica vantaggi e svantaggi / limitazioni


14

La perdita della cerniera può essere definita usando e la perdita del log può essere definita come log ( 1 + exp ( - y i w T x i ) )max(0,1-yiowTXio)log(1+exp(-yiowTXio))

Ho le seguenti domande:

  1. Ci sono degli svantaggi della perdita della cerniera (ad es. Sensibili ai valori anomali come menzionato in http://www.unc.edu/~yfliu/papers/rsvm.pdf )?

  2. Quali sono le differenze, i vantaggi, gli svantaggi di uno rispetto all'altro?

Risposte:


22

La minimizzazione della perdita logaritmica porta a risultati probabilistici ben educati.

La perdita della cerniera porta a una certa sparsità (non garantita) sul doppio, ma non aiuta nella stima della probabilità. Piuttosto punisce le classificazioni errate (ecco perché è così utile determinare i margini): la perdita della cerniera diminuisce con la diminuzione attraverso le classificazioni errate dei margini.

Quindi, riassumendo:

  • La perdita logaritmica porta a una migliore stima della probabilità a scapito dell'accuratezza

  • La perdita della cerniera porta a una migliore precisione e una certa scarsità a scapito di una sensibilità molto inferiore per quanto riguarda le probabilità


1
+1. La minimizzazione della perdita logistica corrisponde alla massimizzazione della probabilità binomiale. Ridurre al minimo la perdita di errori al quadrato corrisponde a massimizzare la probabilità gaussiana (è solo una regressione OLS; per la classificazione di 2 classi è effettivamente equivalente a LDA). Sai se minimizzare la perdita della cerniera corrisponde a massimizzare qualche altra probabilità? Cioè c'è qualche modello probabilistico corrispondente alla perdita della cerniera?
ameba dice Ripristina Monica il

1
@amoeba È una domanda interessante, ma gli SVM non sono intrinsecamente basati su modelli statistici. Detto questo, controlla questa risposta di Glen_b. L'intero thread è a questo proposito, ma per la cerniera insensibile epsilon invece.
Firebug

4

@Firebug ha una buona risposta (+1). In effetti, avevo una domanda simile qui.

Quali sono gli impatti della scelta delle diverse funzioni di perdita nella classificazione per approssimare la perdita 0-1

Voglio solo aggiungere altro su un altro grande vantaggio della perdita logistica: l'interpretazione probabilistica. Un esempio può essere trovato qui

In particolare, la regressione logistica è un modello classico nella letteratura statistica. (Vedi, Cosa significa il nome "Regressione logistica"? Per la denominazione.) Esistono molti concetti importanti relativi alla perdita logistica, come la stima della verosimiglianza del log, i test del rapporto di verosimiglianza, nonché i presupposti sul binomio. Ecco alcune discussioni correlate.

Test del rapporto di verosimiglianza in R

Perché la regressione logistica non si chiama classificazione logistica?

Ci sono ipotesi sulla regressione logistica?

Differenza tra i modelli logit e probit


1

Poiché @ hxd1011 ha aggiunto un vantaggio all'entropia incrociata, aggiungerò un inconveniente.

L'errore di entropia incrociata è una delle molte misure di distanza tra le distribuzioni di probabilità, ma uno svantaggio è che le distribuzioni con code lunghe possono essere modellate male con troppo peso dato agli eventi improbabili.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.