Il mio set di dati è piccolo (120 campioni), tuttavia il numero di funzionalità è grande varia da (1000-200.000). Anche se sto facendo la selezione delle funzionalità per scegliere un sottoinsieme di funzionalità, potrebbe comunque essere troppo adatto.
La mia prima domanda è: in che modo SVM gestisce l'overfitting, se non del tutto.
In secondo luogo, mentre studio di più sul sovradimensionamento in caso di classificazione, sono giunto alla conclusione che anche i set di dati con un numero limitato di funzionalità possono sovrautilizzare. Se non abbiamo funzionalità correlate all'etichetta della classe, comunque si verifica un overfitting. Quindi ora mi chiedo qual è il punto della classificazione automatica se non riusciamo a trovare le giuste caratteristiche per un'etichetta di classe. In caso di classificazione dei documenti, ciò significherebbe creare manualmente un dizionario dei termini relativo alle etichette, che richiede molto tempo. Immagino che ciò che sto cercando di dire sia che, senza scegliere le caratteristiche giuste, è molto difficile costruire un modello generalizzato?
Inoltre, se i risultati sperimentali non mostrano che i risultati sono bassi / nessun overfit diventa insignificante. C'è un modo per misurarlo?