Support Vector Machine è sensibile alla correlazione tra gli attributi?


11

Vorrei formare un SVM per classificare i casi (VERO / FALSO) in base a 20 attributi. So che alcuni di questi attributi sono altamente correlati. Pertanto la mia domanda è: SVM è sensibile alla correlazione o ridondanza tra le funzionalità? Qualche riferimento?


La mia ipotesi sarebbe no, dal momento che la generazione di una separazione basata su una variabile renderebbe le altre variabili correlate deboli per quanto riguarda ulteriori separazioni. Tuttavia, potrebbe esserci una certa instabilità riguardo alla variabile scelta.
mandata,

Stai parlando di un SVM lineare, o di un kernel RBF, o ...?
Dougal,

Hmmmm, non lo so ... la risposta dipende da questo?
user7064

Si assolutamente. Puoi progettare un kernel per gestire esplicitamente le correlazioni, se lo desideri.
Dougal,

1
@Dougal: se esistono metodi per eliminare l'effetto della correlazione, ciò non implica che SVM standard sia sensibile alla correlazione?
cfr

Risposte:


12

Kernel lineare: qui l'effetto è simile a quello della multicollinearità nella regressione lineare. Il modello appreso potrebbe non essere particolarmente stabile rispetto a piccole variazioni nel set di allenamento, poiché vettori di peso diversi avranno risultati simili. Le previsioni del set di addestramento, tuttavia, saranno abbastanza stabili e quindi testeranno le previsioni se provengono dalla stessa distribuzione.

Kernel RBF: il kernel RBF esamina solo le distanze tra i punti dati. Quindi, immagina di avere effettivamente 11 attributi, ma uno di essi viene ripetuto 10 volte (un caso piuttosto estremo). Quindi quell'attributo ripetuto contribuirà alla distanza 10 volte di più rispetto a qualsiasi altro attributo e il modello appreso sarà probabilmente molto più influenzato da quella caratteristica.

Un modo semplice per scontare le correlazioni con un kernel RBF è usare la distanza di Mahalanobis: , dove è un stima della matrice di covarianza del campione. Equivalentemente, mappa tutti i tuoi vettori su e quindi usa il normale kernel RBF, dove è tale che , ad esempio la decomposizione di Cholesky di .d(x,y)=(xy)TS1(xy)SxCxCS1=CTCS1


Questa è una risposta molto interessante; Mi piacerebbe leggere di più su come mitigare questo tipo di problemi. Puoi aggiungere un riferimento o due?
Sycorax dice di reintegrare Monica

Non ne conosco una buona mano, ma mi cercherò un po 'per uno, forse stasera.
Dougal,

Eccezionale! Ricevetemi se trovate un articolo interessante. Sono contento che il mio (+1) potrebbe farti superare i 3k. (-:
Sycorax dice Reinstate Monica

1
L'inverso della matrice di covarianza nella distanza di Mahalanobis è una chiave. Se è possibile stimarlo in modo affidabile, questo può essere preso in considerazione.
Vladislavs Dovgalecs,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.