Ho un set di dati di circa 5000 funzionalità. Per quei dati ho usato per la prima volta il test Chi Square per la selezione delle caratteristiche; successivamente, ho ottenuto circa 1500 variabili che mostravano una relazione significativa con la variabile response.
Ora devo adattarmi alla regressione logistica su questo. Sto usando il pacchetto glmulti per R (il pacchetto glmulti fornisce un'efficiente selezione di sottoinsiemi per vlm) ma può usare solo 30 funzioni alla volta, altrimenti le sue prestazioni diminuiscono poiché il numero di righe nel mio set di dati è di circa 20000.
Esistono altri approcci o tecniche per risolvere i problemi di cui sopra? Se seguo il metodo sopra ci vorrà troppo tempo per adattarsi al modello.
sklearn
's LogisticRegression
e risolve un 4000 caratteristiche, 20.000 righe problema in circa un minuto sul mio portatile.