Limiti di generalizzazione su SVM


11

Sono interessato ai risultati teorici della capacità di generalizzazione di Support Vector Machines, ad esempio limiti alla probabilità di errore di classificazione e alla dimensione Vapnik-Chervonenkis (VC) di queste macchine. Tuttavia, leggendo la letteratura ho avuto l'impressione che alcuni risultati ricorrenti simili tendano a differire leggermente da un autore all'altro, in particolare per quanto riguarda le condizioni tecniche richieste per un determinato vincolo.

Di seguito ricorderò la struttura del problema SVM e lo stato 3 dei principali risultati di generalizzazione che ho trovato ricorrentemente in una forma o nell'altra Fornisco 3 riferimenti principali durante l'esposizione.

Impostazione del problema :

Supponiamo di avere un campione di dati di coppie (iid) indipendenti e identicamente distribuite ( (xi,yi)1in dove per tutti i , xiRp e yi{1,1} . Costruiamo una macchina vettoriale di supporto (SVM) che massimizza il margine minimo m tra l'iperpiano di separazione definito da {x:wx+b=0} , wRp e bR e il punto più vicino tra x1,,xn modo da separare le due classi definite da y=1 e y=1 . Lasciamo che SVM ammetta alcuni errori attraverso un margine debole introducendo variabili allentateξ1,,ξn ma per semplicità notazionale ignoriamo la possibilità dei kernel. I parametri di soluzione w e b sono ottenuti risolvendo il seguente programma di ottimizzazione quadratica convessa:

minw,b,ξ1,,ξn12w2+Ci=1nξis.t.:yi(wxi+b)1ξi,i{1,,n}ξi0,i{1,,n}

Siamo interessati alla capacità di generalizzazione di questa macchina.

Dimensione Vapnik-Chervonenkis VC :

Un primo risultato è dovuto a (Vapnik, 2000), in cui limita la dimensione VC di un iperpiano di separazione, teorema 5.1. Lettere, noi abbiamo:R=maxxixi

VCmin((Rm)2,p)+1

Questo risultato può essere nuovamente trovato in (Burges, 1998), teorema 6. Tuttavia, sembra che il teorema di Burges sia più restrittivo rispetto allo stesso risultato di Vapnik, in quanto deve definire una categoria speciale di classificatori, noti come classificatori tolleranti al gap a cui appartiene l'SVM , per affermare il teorema.

Limiti sulla probabilità di errori :

In (Vapnik, 2000), il teorema 5.2 a pagina 139 fornisce il seguente limite all'abilità di generalizzazione SVM:

E[Perror]1nE[min(p,nSV,(Rw)2)]

dove è il numero di vettori di supporto di SVM. Questi risultati sembrano essere trovati di nuovo in (Burges, 1998), equazioni (86) e (93) rispettivamente. Ma ancora una volta, Burges sembra differire da Vapnik in quanto separa i componenti all'interno della funzione minima sopra in teoremi diversi, con condizioni diverse.nSV

Un altro risultato che appare in (Vapnik, 2000), p.133, è il seguente. Supponendo ancora che, per tutti , e lasciando e , definiamo uguale a:ixi2R2hVCϵ[0,1]ζ

ζ=4h(ln2nh+1)lnϵ4n

Definiamo anche il numero di esempi di formazione classificati erroneamente dall'SVM. Quindi con probabilità possiamo affermare che la probabilità che un esempio di test non sia separato correttamente dall'ipermercato -margin ovvero SVM con margine ha il limite:nerror1ϵmm

Perrornerrorn+ζ2(1+1+4nerrornζ)

Tuttavia, in (Hastie, Tibshirani e Friedman, 2009), p.438, si trova un risultato molto simile:

ErrorTestζ

Conclusione :

Mi sembra che ci sia un certo grado di conflitto tra questi risultati. D'altra parte, due di questi riferimenti, sebbene canonici nella letteratura SVM, iniziano a essere leggermente vecchi (1998 e 2000), specialmente se consideriamo che la ricerca sull'algoritmo SVM è iniziata a metà degli anni novanta.

Le mie domande sono:

  • Questi risultati sono ancora validi oggi o sono stati smentiti?
  • Da allora sono stati derivati ​​limiti più stretti con condizioni relativamente allentate? In tal caso, da chi e dove posso trovarli?
  • Infine, esiste qualche materiale di riferimento che sintetizza i principali risultati di generalizzazione sull'SVM?

Riferimenti :

Burges, JC (1998). "Un tutorial sulle macchine vettoriali di supporto per il riconoscimento di modelli", Data Mining e Knowledge Discovery , 2: 121-167

Hastie, T., Tibshirani, R. e Friedman, J. (2009). The Elements of Statistical Learning , 2nd edition, Springer

Vapnik, VN (1998). Statistical Learning Theory , 1st edition, John Wiley & Sons

Vapnik, VN (1999). "Una panoramica della teoria dell'apprendimento statistico", Transazioni IEEE su reti neurali , 10 (5): 988-999

Vapnik, VN (2000). The Nature of Statistical Learning Theory , 2nd edition, Springer


un riferimento che riassume i limiti di rischio all'avanguardia (a partire dal 2008) per gli SVM: "Support Vector Machines" (Ingo Steinwart, Andreas Christmann, Springer 2008) .
registrati il

Risposte:


3

Non conosco la letteratura a cui ti riferisci in dettaglio, ma penso che un riassunto completo dei limiti di generalizzazione che dovrebbero essere aggiornati sia disponibile in Boucheron et al. (2004) (Link: https://www.researchgate.net/profile/Olivier_Bousquet/publication/238718428_Advanced_Lectures_on_Machine_Learning_ML_Summer_Schools_2003_Canberra_Australia_February_2-14_2003_Tubingen_Germany_August_4-16_2003_Revised_Lectures/links/02e7e52c5870850311000000/Advanced-Lectures-on-Machine-Learning-ML-Summer-Schools-2003- Canberra-Australia-2-14-2003-Tuebingen-Germania-4-16-2003-Revised-Lectures.pdf # page = 176 )

Traccerò una parte del limite SVM nel seguito, tralasciando dettagli e prove.

Prima di elaborare in modo specifico il limite SVM, dobbiamo capire cosa stanno cercando di raggiungere i limiti di generalizzazione.

Per prima cosa supponiamo che la vera probabilità sia nota, quindi il miglior classificatore possibile sarebbe il classificatore bayes, cioè P(Y=+1|X=x)

g={+1  ifP(Y=1|X=x)>0.51  otherwise

L'obiettivo della teoria dell'apprendimento statistico ora è trovare la differenza tra un classificatore di classe (es. SVM) e il classificatore bayes, ovvero noti che è la perdita data dati previsti e è la migliore classificatore possibile nella classe del modello . Il termine è chiamato errore di stima e spesso il focus perché può essere limitato molto più facilmente dell'errore di approssimazione (l'altro termine). Ometterò anche l'errore di approssimazione qui.C

g^n=argmingCLn(g)
L(g^n)L(g)=L(g^n)L(gc)+L(gc)L(g).
L(g)=El(g(X),Y)gcCZ=:L(g)L(g^n)

L'errore di stima può essere ulteriormente scomposto con Ora questo può essere limitato da due passaggi:Z

Z=ZEZ+EZ.
  1. Legato usando la disuguaglianza di McDiarmidZEZ

  2. Limitato con la complessità di RademacherEZRn(C)=EsupgC|1/ni=1nl(g(Xi),Yi)|

Usando la disuguaglianza di McDiarmids si può dimostrare che se la funzione di perdita è compresa in un intervallo non superiore a , il primo passaggio si traduce in un limite di dove è il livello di confidenza. Per il secondo passo possiamo mostrare che Se hai una funzione di perdita discreta, cioè non Lipschitz come 0-1 -loss, avresti bisogno della dimensione VC per delimitare ulteriormente la complessità di Rademacher. Tuttavia, per le funzioni di L-lipschitz come la perdita della cerniera, ciò può essere ulteriormente limitato da doveB

ZEZ2Bln(1/δ)2n,
δ
EZ2Rn(C),
Rn(C)λLR/n,

λindica il regolarizzatore. Poiché per la perdita della cerniera e (prova con disuguaglianza di Gauchy-Schwartz) questo semplifica ulteriormente. Riunendo infine tutti i risultati, possiamo un limite di L=1B=1+λR
L(g^n)L(gc)2(1+λR)ln(1/δ)2n+4λLR/n
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.