Perché il termine di polarizzazione in SVM è stimato separatamente, invece di una dimensione aggiuntiva nel vettore feature?


11

L'hyperplane ottimale in SVM è definito come:

wx+b=0,

dove rappresenta la soglia. Se disponiamo di una mappatura che mappa lo spazio di input su uno spazio , possiamo definire SVM nello spazio , dove l'hiperplane ottimale sarà:ϕ Z ZbϕZZ

wϕ(x)+b=0.

Tuttavia, possiamo sempre definire il mapping modo che , , e quindi l'hiperplane ottimale verrà definito come ϕ 0 ( x ) = 1 x wϕ ( x ) = 0.ϕϕ0(x)=1x

wϕ(x)=0.

Domande:

  1. Perché molti articoli usano quando hanno già mappatura e stima parametri e theshold separati?ϕ w bwϕ(x)+b=0ϕwb

  2. C'è qualche problema nel definire SVM come e stimiamo solo il vettore di parametri , supponendo che definiamo ? s. t. y n w ϕ ( x n )1,n w ϕ 0 ( x )=1, x

    minw||w||2
    s.t. ynwϕ(xn)1,n
    wϕ0(x)=1,x
  3. Se la definizione di SVM dalla domanda 2. è possibile, avremo e la soglia sarà semplicemente , che non tratteremo separatamente. Quindi non useremo mai una formula come per stimare da un vettore di supporto . Giusto?b = w 0 b = t n - wϕ ( x n ) b x nw=nynαnϕ(xn)b=w0b=tnwϕ(xn)bxn


Risposte:


12

Perché la distorsione è importante?

Il termine bias è, in effetti, un parametro speciale in SVM. Senza di esso, il classificatore passerà sempre attraverso l'origine. Quindi, SVM non ti dà l'iperpiano di separazione con il margine massimo se non capita di passare attraverso l'origine, a meno che tu non abbia un termine di bias.b

Di seguito è una visualizzazione del problema di distorsione. Un SVM addestrato con (senza) un termine di bias è mostrato a sinistra (a destra). Sebbene entrambi gli SVM siano addestrati sugli stessi dati , sembrano comunque molto diversi.

inserisci qui la descrizione dell'immagine

Perché la distorsione dovrebbe essere trattata separatamente?

Come ha sottolineato Ben DAI , il termine bias dovrebbe essere trattato separatamente a causa della regolarizzazione. SVM massimizza la dimensione del margine, che è (o seconda di come la definisci).1b 21||w||22||w||2

Massimizzare il margine equivale a minimizzare . Questo è anche chiamato termine di regolarizzazione e può essere interpretato come una misura della complessità del classificatore. Tuttavia, non si desidera regolarizzare il termine di polarizzazione poiché, la polarizzazione sposta i punteggi di classificazione in alto o in basso dello stesso importo per tutti i punti dati . In particolare, il bias non cambia la forma del classificatore o la sua dimensione del margine. Perciò, ...||w||2

il termine di polarizzazione in SVM NON deve essere regolarizzato.

In pratica, tuttavia, è più semplice inserire il bias nel vettore delle caratteristiche invece di dover affrontare un caso speciale.

Nota: quando si preme il bias sulla funzione feature, è meglio fissare quella dimensione del vettore feature su un numero elevato, ad esempio , in modo da ridurre al minimo gli effetti collaterali della regolarizzazione del bias.ϕ0(x)=10


Quale programma hai usato per generare le trame, per curiosità?
d0rmLife

1
@ d0rmLife: questo è solo un cartone animato che ho realizzato usando MS PowerPoint!
Sobi,


1

A volte, le persone ometteranno l'intercettazione in SVM, ma penso che il motivo forse possiamo penalizzare l'intercettazione per ometterla. vale a dire,

possiamo modificare i dati e in modo che omette l'intercetta Come si detto, una tecnica simile può essere usata nella versione del kernel.x^=(1,x)w^=(w0,wT)T

x w+b=x^ w^

Tuttavia, se mettiamo l'intercettazione nei pesi, la funzione obiettivo sarà leggermente diversa da quella originale. Ecco perché chiamiamo "penalizzare".


Concordo sul fatto che avremo diverse funzioni oggettive. Il caso in cui non includiamo l'intercettazione nei parametri porta al problema di ottimizzazione soggetto a vincolo, mentre altrimenti abbiamo problemi . Ma non capisco perché l'intercettazione del panico più o meno sia importante per il modello. bminw,b||w||2minw,b||w||2+b2
Dejan,

Quello che mi viene in mente è che la ragione principale per cui abbiamo intersezioni è forse perché nel doppio problema, l'intercettazione ci consente di avere un vincolo che è importante applicare l'algoritmo SMO e se non abbiamo intercettare noi avrà solo costanti e la doppia ottimizzazione sarebbe più difficile in quel caso. αntn=0αn0
Dejan,

@Petar Una cosa che ho saputo è che diventa potente se consideriamo la forma Dual di questo modello. Questa tecnica eliminerà il vincolo lineare.
Ben Dai,

@Petar Non credo che la doppia ottimizzazione sarà più difficile, dal momento che abbiamo un dominio più semplice.
Ben Dai,

@Petar Per algoritmo specifico, potrebbe essere più difficile. Tuttavia, matematicamente, penso che il dominio delle caselle sia forse migliore:)
Ben Dai

0

Oltre alle ragioni sopra menzionate, la distanza di un punto da un iperpiano definito da pendenza e intercettazione è Ecco come il concetto di margine in SVM è movimentato. Se si modifica per includere il termine di intercettazione , la norma di sarà influenzata dalla dimensione dell'intercettazione, il che causerà l'ottimizzazione di SVM verso una piccola intercettazione, che non ha senso in molti casi.xθb

|θTx+b|||θ||
θbθ


Anche se la distanza di un punto da un iperpiano è corretta e la spiegazione sembra interessante, non vedo correlazione tra questa formula e gli SVM di addestramento. Puoi spiegarci meglio come viene utilizzata questa formula durante l'allenamento o fornire qualche link aggiuntivo.
Dejan,

θTx+b||θ||{1,1}y(θTx+b)||θ||1||θ||

@Djan puoi trovare maggiori dettagli nelle Note di Andrew Ng: cs229.stanford.edu/notes/cs229-notes3.pdf
charlieh_7
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.