Sono interessato ai risultati teorici della capacità di generalizzazione di Support Vector Machines, ad esempio limiti alla probabilità di errore di classificazione e alla dimensione Vapnik-Chervonenkis (VC) di queste macchine. Tuttavia, leggendo la letteratura ho avuto l'impressione che alcuni risultati ricorrenti simili tendano a differire leggermente da un autore all'altro, in particolare per quanto riguarda le condizioni tecniche richieste per un determinato vincolo.
Di seguito ricorderò la struttura del problema SVM e lo stato 3 dei principali risultati di generalizzazione che ho trovato ricorrentemente in una forma o nell'altra Fornisco 3 riferimenti principali durante l'esposizione.
Impostazione del problema :
Supponiamo di avere un campione di dati di coppie (iid) indipendenti e identicamente distribuite ( dove per tutti , e . Costruiamo una macchina vettoriale di supporto (SVM) che massimizza il margine minimo tra l'iperpiano di separazione definito da , e e il punto più vicino tra modo da separare le due classi definite da e . Lasciamo che SVM ammetta alcuni errori attraverso un margine debole introducendo variabili allentate ma per semplicità notazionale ignoriamo la possibilità dei kernel. I parametri di soluzione e sono ottenuti risolvendo il seguente programma di ottimizzazione quadratica convessa:
Siamo interessati alla capacità di generalizzazione di questa macchina.
Dimensione Vapnik-Chervonenkis :
Un primo risultato è dovuto a (Vapnik, 2000), in cui limita la dimensione VC di un iperpiano di separazione, teorema 5.1. Lettere, noi abbiamo:
Questo risultato può essere nuovamente trovato in (Burges, 1998), teorema 6. Tuttavia, sembra che il teorema di Burges sia più restrittivo rispetto allo stesso risultato di Vapnik, in quanto deve definire una categoria speciale di classificatori, noti come classificatori tolleranti al gap a cui appartiene l'SVM , per affermare il teorema.
Limiti sulla probabilità di errori :
In (Vapnik, 2000), il teorema 5.2 a pagina 139 fornisce il seguente limite all'abilità di generalizzazione SVM:
dove è il numero di vettori di supporto di SVM. Questi risultati sembrano essere trovati di nuovo in (Burges, 1998), equazioni (86) e (93) rispettivamente. Ma ancora una volta, Burges sembra differire da Vapnik in quanto separa i componenti all'interno della funzione minima sopra in teoremi diversi, con condizioni diverse.
Un altro risultato che appare in (Vapnik, 2000), p.133, è il seguente. Supponendo ancora che, per tutti , e lasciando e , definiamo uguale a:
Definiamo anche il numero di esempi di formazione classificati erroneamente dall'SVM. Quindi con probabilità possiamo affermare che la probabilità che un esempio di test non sia separato correttamente dall'ipermercato -margin ovvero SVM con margine ha il limite:
Tuttavia, in (Hastie, Tibshirani e Friedman, 2009), p.438, si trova un risultato molto simile:
Conclusione :
Mi sembra che ci sia un certo grado di conflitto tra questi risultati. D'altra parte, due di questi riferimenti, sebbene canonici nella letteratura SVM, iniziano a essere leggermente vecchi (1998 e 2000), specialmente se consideriamo che la ricerca sull'algoritmo SVM è iniziata a metà degli anni novanta.
Le mie domande sono:
- Questi risultati sono ancora validi oggi o sono stati smentiti?
- Da allora sono stati derivati limiti più stretti con condizioni relativamente allentate? In tal caso, da chi e dove posso trovarli?
- Infine, esiste qualche materiale di riferimento che sintetizza i principali risultati di generalizzazione sull'SVM?
Riferimenti :
Vapnik, VN (1998). Statistical Learning Theory , 1st edition, John Wiley & Sons
Vapnik, VN (2000). The Nature of Statistical Learning Theory , 2nd edition, Springer