Voglio addestrare un classificatore, diciamo SVM, o foresta casuale, o qualsiasi altro classificatore. Una delle funzionalità nel set di dati è una variabile categoriale con 1000 livelli. Qual è il modo migliore per ridurre il numero di livelli in questa variabile. In R c'è una funzione chiamata combine.levels()
nel pacchetto Hmisc , che combina livelli poco frequenti, ma stavo cercando altri suggerimenti.