Comprensione della regressione SVM: funzione obiettiva e "piattezza"


12

Le SVM per la classificazione hanno un senso intuitivo per me: capisco come minimizzare produca il margine massimo. Tuttavia, non capisco questo obiettivo nel contesto della regressione. Vari testi ( qui e qui ) lo descrivono come massimizzare la "piattezza". Perché dovremmo farlo? Quale regressione equivale al concetto di "margine"?||θ||2

Ecco alcune risposte tentate, ma nessuna che mi ha davvero aiutato a capire.


Non sono molto interessato alla teoria SVM, ma la "piattezza" nella discussione sulle macchine kernel a cui ci si collega sembra equivalere a: "ha un piccolo secondo derivato" (si pensi alla motivazione tipica per i modelli di smoothing della spline).
conjugateprior

Risposte:


11

Un modo in cui penso alla piattezza è che rende le mie previsioni meno sensibili alle perturbazioni nelle caratteristiche. Cioè, se sto costruendo un modello nella forma cui il mio vettore caratteristica è già stato normalizzato, allora valori più piccoli in significano che il mio modello è meno sensibile agli errori di misurazione / shock casuali / non stazionarietà delle funzioni, . Dati due modelli ( ovvero due possibili valori di ) che spiegano ugualmente bene i dati, preferisco quello "più piatto".x θ x θ

y=xθ+ϵ,
xθxθ

Puoi anche pensare a Ridge Regression come peforming della stessa cosa senza il trucco del kernel o la formulazione di regressione SVM "tube".

modifica : in risposta ai commenti di @ Yang, qualche spiegazione in più:

  1. Considera il caso lineare: . Supponiamo che le siano disegnate da una distribuzione, indipendente da . Dall'identità del prodotto punto, abbiamo , dove è l'angolo tra e , che è probabilmente distribuito sotto una distribuzione sferica uniforme. Ora nota: la 'diffusione' ( ad esempio la deviazione standard del campione) delle nostre previsioni di è proporzionale a. Per ottenere un buon MSE con le versioni latenti e silenziose delle nostre osservazioni, vogliamo ridurre questo.x θ y = | | x | | | | θ | | cos ψ + ϵ ψ θ x y | | θ | | | | θ | |y=xθ+ϵxθy=||x||||θ||cosψ+ϵψθxy||θ||||θ||vedi lo stimatore di James Stein .
  2. Considera il caso lineare con molte funzionalità. Considera i modelli e . Se contiene più zero elementi rispetto a , ma circa lo stesso potere esplicativo, lo preferiremmo, sul rasoio di Occam, poiché ha dipendenze su un minor numero di variabili ( cioè abbiamo 'fatto la selezione delle caratteristiche' impostando alcuni elementi da a zero). La piattezza è una specie di versione continua di questo argomento. Se ogni marginale di ha una deviazione standard unitaria e ha ad es. 2 elementi che sono 10 e il restantey = x θ 2 + ϵ θ 1 θ 2 θ 1 x θ 1 n - 2y=xθ1+ϵy=xθ2+ϵθ1θ2θ1xθ1n2sono inferiori a 0,0001, a seconda della tolleranza del rumore, si tratta effettivamente di "selezionare" le due funzioni e di azzerare quelle rimanenti.
  3. Quando viene utilizzato il trucco del kernel, si sta eseguendo una regressione lineare in uno spazio vettoriale dimensionale elevato (a volte infinito). Ogni elemento di ora corrisponde a uno dei tuoi campioni , non alle tue caratteristiche . Se elementi di sono diversi da zero e i restanti sono zero, le caratteristiche corrispondenti ai diversi da zero elementi di sono chiamate "vettori di supporto". Per memorizzare il tuo modello SVM, diciamo su disco, devi solo tenere quei vettori di funzioni e puoi buttare via il resto. Ora la planarità conta davvero , perché averek θ m - k k θ k k θ l lθkθmkkθkkpiccolo riduce i requisiti di archiviazione e trasmissione, ecc . Anche in questo caso, a seconda della vostra tolleranza per il rumore, probabilmente si può azzerare tutti gli elementi di , ma la più grande, per un po ' , dopo aver eseguito una regressione SVM. La planarità qui equivale alla parsimonia rispetto al numero di vettori di supporto.θll

1
quindi questa è sostanzialmente una regressione con una funzione di perdita "tube" (0 penalità per punti +/- epsilon della previsione) piuttosto che la funzione di perdita quadratica da OLS?
conjugateprior

f(x)=(|x|ϵ)+

@shabbychef Grazie. Mi sono sempre chiesto cosa stesse succedendo lì.
conjugateprior

@Conjugate Priore: non penso che questa sia effettivamente la funzione di perdita desiderata, ma la matematica finisce per funzionare bene, quindi hanno corso con essa. Almeno questo è il mio sospetto.
Shabbychef,

y=θxθϵθ=1e91θ=1e9θ=1e9+1

3

shabbychef ha dato una spiegazione molto chiara dal punto di vista della complessità del modello. Proverò a capire questo problema da un altro punto di vista nel caso possa aiutare qualcuno.

e

(xi,yi)y=ωx+bee

|ωxiyi+b|ω2+1

eω

Chiunque può facilmente estendere il caso monodimensionale al caso N-dimensionale poiché l'equazione della distanza sarà sempre la distanza euclidea .

Inoltre, potremmo avere una recensione sul problema di ottimizzazione in SVR per il confronto [1].

s. t. { y i - < ω , x i > - b e < ω , x i > + b - y ie

min12||ω||2
s.t.{yi<ω,xi>be<ω,xi>+byie

Grazie.

[1] Smola, A. e B. Schölkopf. Un tutorial sulla regressione del vettore di supporto. Statistica e informatica, vol. 14, n. 3, agosto 2004, pagg. 199–222.


0

Almeno, non penso che minimizzare abbia qualcosa a che fare con il margine del concetto come in un'impostazione di classificazione SVM. Serve per un obiettivo completamente diverso che è ben spiegato dai due post precedenti, vale a dire ridurre la complessità del modello ed evitare un eccesso di adattamento.θ

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.