Intuizione per il parametro di regolarizzazione in SVM


11

In che modo la variazione del parametro di regolarizzazione in un SVM modifica il limite di decisione per un set di dati non separabile? Una risposta visiva e / o alcuni commenti sui comportamenti limitanti (per la regolarizzazione grande e piccola) sarebbe molto utile.

Risposte:


17

Il parametro di regolarizzazione (lambda) funge da grado di importanza dato alle classificazioni errate. SVM pone un problema di ottimizzazione quadratica che cerca di massimizzare il margine tra le due classi e minimizzare la quantità di classificazioni mancate. Tuttavia, per problemi non separabili, al fine di trovare una soluzione, il vincolo di classificazione errata deve essere allentato, e ciò viene fatto impostando la "regolarizzazione" menzionata.

Quindi, intuitivamente, man mano che lambda cresce, meno sono consentiti gli esempi classificati erroneamente (o più alto è il prezzo della retribuzione nella funzione di perdita). Quindi, quando lambda tende all'infinito, la soluzione tende al margine duro (non consente alcuna classificazione mancata). Quando lambda tende a 0 (senza essere 0) più sono consentite le classificazioni mancate.

C'è sicuramente un compromesso tra questi due e lambda normalmente più piccoli, ma non troppo piccoli, generalizzano bene. Di seguito sono riportati tre esempi per la classificazione lineare SVM (binaria).

SVM Lambda lineare = 0.1 SVM Lambda lineare = 1 inserisci qui la descrizione dell'immagine

Per SVM con kernel non lineare l'idea è simile. Detto questo, per valori più alti di lambda vi è una maggiore possibilità di overfitting, mentre per valori più bassi di lambda ci sono maggiori possibilità di underfitting.

Le immagini seguenti mostrano il comportamento del kernel RBF, lasciando il parametro sigma fissato su 1 e provando lambda = 0,01 e lambda = 10

RBF Kernel SVM lambda = 0,01 RBF Kernel SVM lambda = 10

Si può dire che la prima cifra in cui lambda è più bassa è più "rilassata" rispetto alla seconda figura in cui i dati devono essere adattati in modo più preciso.

(Diapositive del Prof. Oriol Pujol. Universitat de Barcelona)


Belle foto! Li hai creati tu? Se sì, forse puoi condividere il codice per disegnarli?
Alexey Grigorev,

bella grafica. per quanto riguarda gli ultimi due => dal testo si potrebbe pensare implicitamente che la prima immagine sia quella con lambda = 0,01, ma dalla mia comprensione (e per essere coerente con il grafico all'inizio) questa è quella con lambda = 10. perché questo è chiaramente quello con la minor regolarizzazione (più adatto, più rilassato).
Wim 'titte' Thiels,

^ anche questa è la mia comprensione. La parte superiore dei due grafici a colori mostra chiaramente più contorni per la forma dei dati, quindi quello deve essere il grafico in cui il margine dell'equazione SVM è stato preferito con lambda maggiore. La parte inferiore dei due grafici a colori mostra una classificazione più rilassata dei dati (piccolo gruppo di blu nell'area arancione), il che significa che la massimizzazione del margine non è stata favorita rispetto alla minimizzazione della quantità di errore nella classificazione.
Brian Ambielli,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.