Qual è la funzione di perdita di SVM a margine duro?


23

La gente dice che il margine debole SVM usa la funzione di perdita della cerniera: . Tuttavia, la funzione oggettiva effettiva che SVM del margine debole cerca di minimizzare è \ frac {1} {2} \ | w \ | ^ 2 + C \ sum_i \ max (0,1-y_i (w ^ \ intercal x_i + b) ) Alcuni autori chiamano il termine regolarizzatore \ | w \ | ^ 2 e la funzione di perdita del termine \ max (0,1-y_i (w ^ \ intercal x_i + b)) .max(0,1yi(wxi+b))

12w2+Cimax(0,1yi(wxi+b))
w2max(0,1yi(wxi+b))

Tuttavia, per SVM con margine fisso, l'intera funzione obiettivo è solo

12w2
Ciò significa che SVM con margine fisso minimizza solo un regolarizzatore senza alcuna funzione di perdita? Sembra molto strano.

Bene, se 12w2 è la funzione di perdita in questo caso, possiamo chiamarla funzione di perdita quadratica? In tal caso, perché la funzione di perdita di SVM a margine duro diventa regolarizzatore in SVM a margine morbido e passa da perdita quadratica a perdita a cerniera?


Per quello che ho capito, margine duro significa che non accetti dati nel tuo margine. Di conseguenza, max (0, calcolo) restituirà sempre 0.
fxm

Risposte:


26

Il termine di perdita della cerniera imax(0,1yi(wxi+b)) in margine debole SVM penalizza le classificazioni errate . Nella SVM a margine fisso non ci sono, per definizione, nessuna classificazione errata.

Ciò significa in effetti che il margine rigido SVM tenta di ridurre al minimo w2 . A causa della formulazione del problema SVM, il margine è 2/w. Pertanto, minimizzare la norma di w equivale geometricamente a massimizzare il margine. Esattamente quello che vogliamo!

La regolarizzazione è una tecnica per evitare l'eccessivo adattamento penalizzando grandi coefficienti nel vettore della soluzione. In margine rigido SVM è sia la funzione di perdita che un regolarizzatore .w2L2

In SVM a margine morbido, anche il termine di perdita della cerniera si comporta come un regolarizzatore ma sulle variabili lente invece di e in anziché in . regolarizzazione induce la scarsità, motivo per cui SVM standard è scarsa in termini di vettori di supporto (in contrasto con SVM dei minimi quadrati).wL1L2L1


Puoi spiegare gli ultimi due paragrafi con alcuni dettagli e matematica?
Nain,

0

Giusto per chiarire, è minimizzato con il vincolo che i punti siano separabili linearmente (cioè si può disegnare un iperpiano che separa perfettamente i due). In altre parole, gli unici valori consentiti di w che possiamo considerare come soluzioni sono quelli che separano le due serie di punti.

12w2

Ora, si pensa che il margine duro SVM "si sovrappone" più facilmente del margine morbido. Ciò è più facile da immaginare con un SVM RBF con un sufficientemente elevato , che può creare limiti di decisione (eccessivamente) complicati e (potenzialmente) troppo adatti. Più è difficile il margine (emulato in modo impreciso con una "C" più alta), più la ricerca cercherà di trovare limiti di decisione che classifichino perfettamente le due serie di punti.γ

Quando passiamo al "margine morbido", i vincoli vengono allentati e sostituiti con una moderazione attraverso l'introduzione del "margine". Questa variabile debole è definita con un termine "perdita della cerniera". Dopo la semplificazione, si arriva alla cerniera + l2 come il termine di perdita che tutti associano alle SVM. FWIW, mi piace inquadrare gli SVM come più di un problema di ottimizzazione invece del problema onnipresente di "seguire i gradienti".

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.