Ho un set di dati con 5.818.446 righe e 51 colonne, di cui 50 sono predittori. La mia risposta è quantitativa, quindi sono interessato a un modello di regressione. Sto provando ad adattare una foresta casuale ai miei dati usando il pacchetto caret. Tuttavia, non ho abbastanza RAM per farlo.
Ho cercato soluzioni al mio problema. Oltre ad avere un computer più potente, sembra che io possa usare il bagging per risolvere il mio problema. Pertanto, la mia idea è la seguente:
Crea sia partizioni di treno che di prova dal mio set di dati originale
Campione con sostituzione di una piccola parte del mio set di dati del treno in R (diciamo l'1% di esso, ovvero 58.185 linee)
Adatta una foresta casuale a questa piccola parte di dati
Salva il risultato del modello
Ripeti i passaggi da 2 a 4 1.000 volte
Combina questi 1.000 modelli ottenuti dai passaggi 2-5
Tuttavia, la foresta casuale stessa utilizza il bagging per adattare il modello ai dati e quindi non sono sicuro che il mio approccio sia corretto. Pertanto, ho alcune domande per te:
i) Il mio approccio è corretto? Voglio dire, dal momento che non ho abbastanza RAM nel mio sistema, è corretto adattare molti diversi modelli di foresta casuali a diversi blocchi di dati e combinarli dopo?
ii) Supponendo che il mio approccio sia corretto, l'1% dei dati è una buona regola empirica per la dimensione del mio campione? Anche con l'1% dei dati, ho ancora .
iii) Supponendo che il mio approccio sia corretto, esiste una serie di repliche per i modelli che dovrei usare? Ho pensato a 1.000 per motivi.
l1
regolarizzazione, che in genere porta i pesi dei componenti insignificanti a quasi zero, in modo da poter vedere ispezionando quali alberi dovresti tenere.