Sto addestrando un modello di classificazione con Random Forest per discriminare tra 6 categorie. I miei dati transazionali hanno circa 60k + osservazioni e 35 variabili. Ecco un esempio di come appare approssimativamente.
_________________________________________________
|user_id|acquisition_date|x_var_1|x_var_2| y_vay |
|-------|----------------|-------|-------|--------|
|111 | 2013-04-01 | 12 | US | group1 |
|222 | 2013-04-12 | 6 | PNG | group1 |
|333 | 2013-05-05 | 30 | DE | group2 |
|444 | 2013-05-10 | 78 | US | group3 |
|555 | 2013-06-15 | 15 | BR | group1 |
|666 | 2013-06-15 | 237 | FR | group6 |
Una volta creato il modello, vorrei ottenere un punteggio delle osservazioni dell'ultima settimana. Poiché sono state apportate modifiche al sistema, le osservazioni più recenti assomigliano più da vicino all'ambiente delle osservazioni attuali che mi piacerebbe prevedere. Quindi, voglio creare una variabile di peso in modo tale che la foresta casuale attribuisca maggiore importanza alle recenti osservazioni.
Qualcuno sa se il pacchetto randomForest in R è in grado di gestire pesi per osservazione?
Inoltre, puoi suggerire qual è un buon metodo per creare la variabile di peso? Ad esempio, poiché i miei dati sono del 2013, stavo pensando di poter prendere il numero del mese dalla data come peso. Qualcuno vede un problema con questo metodo?
Molte grazie in anticipo!