Voglio provare a utilizzare Support Vector Machines (SVM) sul mio set di dati. Prima di tentare il problema, però, sono stato avvertito che le SVM non funzionano bene con dati estremamente sbilanciati. Nel mio caso, posso avere fino al 95-98% 0 e 2-5% 1.
Ho cercato di trovare risorse che parlassero dell'utilizzo di SVM su dati sparsi / sbilanciati, ma tutto ciò che ho potuto trovare sono stati "sparseSVM" (che utilizzano una piccola quantità di vettori di supporto).
Speravo che qualcuno potesse spiegare brevemente:
- Quanto ci si aspetta che SVM abbia a che fare con questo set di dati
- Quali eventuali modifiche devono essere apportate all'algoritmo SVM
- Quali risorse / documenti ne discutono