Come posso assegnare più peso alle osservazioni più recenti in R?
Presumo che sia una domanda o un desiderio comune, ma ho difficoltà a capire esattamente come implementarlo. Ho provato a cercare molto per questo, ma non riesco a trovare un buon esempio pratico.
Nel mio esempio avrei un set di dati di grandi dimensioni nel tempo. Voglio dire applicare una sorta di ponderazione esponenziale delle file di dati più recenti. Quindi avrei una sorta di funzione esponenziale dicendo che le osservazioni nel 2015 sono più importanti per la formazione del modello rispetto alle osservazioni nel 2012.
Le variabili del mio set di dati contengono un mix di valori categorici e numerici e il mio target è un valore numerico, se questo è importante.
Vorrei testare / provare questo usando modelli come GBM / Random Forest, idealmente nel pacchetto CARET.
update-domanda
Apprezzo la risposta fornita di seguito su come ridurre in modo esponenziale il peso in base alla distanza della data tra due punti.
Tuttavia, quando si tratta di allenare questo modello con il cursore, in che modo influiscono esattamente i pesi? Il valore del peso in ciascuna delle file di allenamento è la distanza tra un punto in futuro e quando quel punto si è verificato storicamente.
I pesi entrano in gioco solo durante la previsione? Perché se entrassero in gioco durante l'allenamento, ciò non causerebbe tutti i tipi di problemi in quanto le varie pieghe trasversali avrebbero pesi variabili, cercando di prevedere qualcosa che potrebbe effettivamente avere in un momento prima di esso?