Come funziona la regressione vettoriale di supporto in modo intuitivo?


25

Tutti gli esempi di SVM sono legati alla classificazione. Non capisco come un SVM per la regressione (regressore vettoriale di supporto) possa essere usato nella regressione.

Da quanto ho capito, un SVM massimizza il margine tra due classi per trovare l'iperpiano ottimale. Come potrebbe funzionare in un problema di regressione?

Risposte:


11

In breve: massimizzare il margine può essere visto più in generale come regolarizzare la soluzione minimizzando (che essenzialmente sta minimizzando la complessità del modello), ciò viene fatto sia nella classificazione che nella regressione. Ma nel caso della classificazione questa minimizzazione viene effettuata a condizione che tutti gli esempi siano classificati correttamente e nel caso di regressione a condizione che il valore y di tutti gli esempi si discosti meno dell'accuratezza richiesta ϵ da f ( x ) per la regressione.wyεf(X)


Per capire come si passa dalla classificazione alla regressione, è utile vedere come in entrambi i casi si applica la stessa teoria SVM per formulare il problema come un problema di ottimizzazione convessa. Proverò a mettere entrambi fianco a fianco.

(Ignorerò le variabili lente che consentono errori di classificazione e scostamenti oltre l'accuratezza )ε

Classificazione

In questo caso l'obiettivo è trovare una funzione dove f ( x ) 1 per esempi positivi e f ( x ) - 1 per esempi negativi. In queste condizioni vogliamo massimizzare il margine (distanza tra le 2 barre rosse) che non è altro che minimizzare la derivata di f = w .f(X)=wX+Bf(X)1f(X)-1f'=w

L'intuizione dietro la massimizzazione del margine è che questo ci darà una soluzione unica al problema di trovare (cioè scartiamo ad esempio la linea blu) e anche che questa soluzione è la più generale in queste condizioni, cioè agisce come una regolarizzazione . Questo può essere visto come, attorno al limite di decisione (dove le linee rosse e nere si incrociano) l'incertezza di classificazione è la più grande e la scelta del valore più basso per f ( x ) in questa regione produrrà la soluzione più generale.f(X)f(X)

inserisci qui la descrizione dell'immagine

I punti dati alle 2 barre rosse sono i vettori di supporto in questo caso, corrispondono ai moltiplicatori di Lagrange diversi da zero della parte di uguaglianza delle condizioni di disuguaglianza f(X)1f(X)-1

Regressione

f(X)=wX+Bf(X)εy(X)|y(X)-f(X)|εepSiolonf'(X)=www=0

inserisci qui la descrizione dell'immagine

|y-f(X)|ε

Conclusione

Entrambi i casi comportano il seguente problema:

min12w2

A condizione che:

  • Tutti gli esempi sono classificati correttamente (Classificazione)
  • yεf(X)

0

In SVM per problemi di classificazione, in realtà proviamo a separare la classe il più possibile dalla linea di separazione (Hyperplane) e, diversamente dalla regressione logistica, creiamo un limite di sicurezza da entrambi i lati dell'hyperplane (diverso tra regressione logistica e classificazione SVM è nella loro funzione di perdita). Alla fine, avere punti dati diversi separati il ​​più lontano possibile dall'iperpiano.

In SVM per problemi di regressione, vogliamo adattare un modello per prevedere una quantità per il futuro. Pertanto, vogliamo che il punto dati (osservazione) sia il più vicino possibile all'iperpiano a differenza di SVM per la classificazione. La regressione SVM ereditata dalla regressione semplice come (Ordinary Least Square) da questa differenza che definiamo un intervallo epsilon da entrambi i lati dell'iperpiano per rendere la funzione di regressione insensibile all'errore a differenza di SVM per la classificazione che definiamo un limite sicuro per la decisione futura (previsione). Infine,

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.