In breve: massimizzare il margine può essere visto più in generale come regolarizzare la soluzione minimizzando (che essenzialmente sta minimizzando la complessità del modello), ciò viene fatto sia nella classificazione che nella regressione. Ma nel caso della classificazione questa minimizzazione viene effettuata a condizione che tutti gli esempi siano classificati correttamente e nel caso di regressione a condizione che il valore y di tutti gli esempi si discosti meno dell'accuratezza richiesta ϵ da f ( x ) per la regressione.wyεf( x )
Per capire come si passa dalla classificazione alla regressione, è utile vedere come in entrambi i casi si applica la stessa teoria SVM per formulare il problema come un problema di ottimizzazione convessa. Proverò a mettere entrambi fianco a fianco.
(Ignorerò le variabili lente che consentono errori di classificazione e scostamenti oltre l'accuratezza )ε
Classificazione
In questo caso l'obiettivo è trovare una funzione dove f ( x ) ≥ 1 per esempi positivi e f ( x ) ≤ - 1 per esempi negativi. In queste condizioni vogliamo massimizzare il margine (distanza tra le 2 barre rosse) che non è altro che minimizzare la derivata di f ′ = w .f( x ) = w x + bf( x ) ≥ 1f( x ) ≤ - 1f'= w
L'intuizione dietro la massimizzazione del margine è che questo ci darà una soluzione unica al problema di trovare (cioè scartiamo ad esempio la linea blu) e anche che questa soluzione è la più generale in queste condizioni, cioè agisce come una regolarizzazione . Questo può essere visto come, attorno al limite di decisione (dove le linee rosse e nere si incrociano) l'incertezza di classificazione è la più grande e la scelta del valore più basso per f ( x ) in questa regione produrrà la soluzione più generale.f( x )f( x )

I punti dati alle 2 barre rosse sono i vettori di supporto in questo caso, corrispondono ai moltiplicatori di Lagrange diversi da zero della parte di uguaglianza delle condizioni di disuguaglianza f( x ) ≥ 1f( x ) ≤ - 1
Regressione
f( x ) = w x + bf( x )εy( x )| y( x ) - f( x ) | ≤ ϵe p s i l o nf'( x ) = www = 0

| y- f( x ) | ≤ ϵ
Conclusione
Entrambi i casi comportano il seguente problema:
min 12w2
A condizione che:
- Tutti gli esempi sono classificati correttamente (Classificazione)
- yεf( x )