Ho un set di dati con circa 2.000 variabili binarie / 200.000 righe e sto cercando di prevedere una singola variabile binaria dipendente. Il mio obiettivo principale in questa fase non è ottenere l'accuratezza della previsione, ma piuttosto identificare quali di queste variabili sono predittori importanti. Vorrei ridurre il numero di variabili nel mio modello finale a circa 100.
Esiste un modo relativamente rapido per ottenere le variabili più importanti? randomForest sembra impiegare molto tempo.
Non devo usare tutte le 200.000 osservazioni, quindi il campionamento è un'opzione sul tavolo.