Ecco un motivo per cui la doppia formulazione è attraente dal punto di vista dell'ottimizzazione numerica. Puoi trovare i dettagli nel seguente documento :
Hsieh, C.-J., Chang, K.-W., Lin, C.-J., Keerthi, SS e Sundararajan, S., “Un metodo di discesa a doppia coordinata per SVM lineare su larga scala”, Atti del 25ª Conferenza internazionale sull'apprendimento automatico, Helsinki, 2008.
La doppia formulazione comporta un unico vincolo di uguaglianza affine e vincoli n vincolati.
1. Il vincolo di uguaglianza affine può essere "eliminato" dalla doppia formulazione.
Questo può essere fatto semplicemente guardando i tuoi dati in R ^ (d + 1) tramite l'incorporamento di R ^ d in R ^ (d + 1) eliminando l'aggiunta di una singola coordinata "1" a ciascun punto dati, cioè R ^ d ----> R ^ (d + 1): (a1, ..., annuncio) | ---> (a1, ..., annuncio, 1).
In questo modo per tutti i punti del set di addestramento, il problema della separabilità lineare viene rielaborato in R ^ (d + 1) ed elimina il termine costante w0 dal classificatore, che a sua volta elimina il vincolo di uguaglianza affine dal doppio.
2. Al punto 1, il doppio può essere facilmente lanciato come un problema convesso di ottimizzazione quadratica i cui vincoli sono solo vincoli vincolati.
3. Il doppio problema ora può essere risolto in modo efficiente, ovvero tramite un algoritmo di discesa a doppia coordinata che fornisce una soluzione ottimale epsilon in O (log (1 / epsilon)).
Questo viene fatto osservando che la correzione di tutti gli alfa tranne uno produce una soluzione in forma chiusa. È quindi possibile scorrere tutti gli Alpha uno per uno (ad esempio, sceglierne uno a caso, correggere tutti gli altri Alpha, calcolare la soluzione in forma chiusa). Si può dimostrare che si otterrà così una soluzione quasi ottimale "piuttosto rapidamente" (vedere Teorema 1 nel documento sopra citato).
Ci sono molte altre ragioni per cui il duplice problema è attraente dal punto di vista dell'ottimizzazione, alcuni dei quali sfruttano il fatto che ha un solo vincolo di uguaglianza affine (i restanti vincoli sono tutti vincoli vincolati) mentre altri sfruttano l'osservazione che alla soluzione del doppio problema "spesso la maggior parte degli alfa" è zero (alfa diverso da zero corrispondente ai vettori di supporto).
È possibile ottenere una buona panoramica delle considerazioni sull'ottimizzazione numerica degli SVM dalla presentazione di Stephen Wright al Computational Learning Workshop (2009).
PS: sono nuovo qui. Ci scusiamo per non essere bravo a usare la notazione matematica su questo sito web.