Come suggerisce highBandwidth, dipende se stai usando un SVM lineare o non lineare (essendo pedante se non si usa un kernel è un classificatore lineare a margine massimo piuttosto che un SVM).
Un classificatore lineare a margine massimo non è diverso da qualsiasi altro classificatore lineare in quanto se il processo di generazione dei dati indica che ci sono interazioni tra gli attributi, fornire tali termini di interazione probabilmente migliorerà le prestazioni. Il classificatore lineare a margine massimo è un po 'come la regressione della cresta, con una leggera differenza nel termine di penalità progettato per evitare un eccesso di adattamento (dati adeguati per il parametro di regolarizzazione), e nella maggior parte dei casi la regressione della cresta e il classificatore di margine massimo daranno prestazioni simili.
K(x,x′)=(x⋅x′+c)ddc
nn−1lo spazio dimensionale può essere frantumato (separato in qualsiasi modo arbitrario) da un iperpiano (cfr. dimensione VC). In questo modo generalmente si verificherà un eccessivo adattamento, e quindi dovrebbe essere evitato. Il punto della classificazione del margine massimo è limitare questo eccesso di adattamento aggiungendo un termine di penalità che significa che si ottiene la massima separazione possibile (che richiederebbe la massima deviazione da qualsiasi esempio di allenamento per produrre una classificazione errata). Ciò significa che è possibile trasformare i dati in uno spazio dimensionale molto elevato (dove un modello lineare è molto potente) senza incorrere in troppi adattamenti eccessivi.
K(x,x′)=exp−γ∥x−x′∥2
Tuttavia questa è solo una parte della storia. In pratica, generalmente utilizziamo un SVM a margine morbido, in cui è consentito violare il vincolo di margine, e esiste un parametro di regolarizzazione che controlla il compromesso tra massimizzare il margine (che è un termine di penalità, simile a quello utilizzato in regressione della cresta) e l'entità delle variabili lente (che è simile alla perdita sul campione di allenamento). Evitiamo quindi un eccesso di adattamento ottimizzando il parametro di regolazione, ad esempio riducendo al minimo l'errore di convalida incrociata (o alcuni vincolati sull'errore di esclusione), proprio come faremmo in caso di regressione della cresta.
Quindi, sebbene SVM possa classificare banalmente il set di addestramento, generalmente lo farà solo se i parametri di regolarizzazione e kernel sono scelti male. La chiave per ottenere buoni risultati con qualsiasi modello di kernel sta nella scelta di un kernel appropriato e quindi nell'ottimizzazione del kernel e dei parametri di regolarizzazione per evitare il sovra o il sottoadattamento dei dati.