Sto tentando di utilizzare la regressione RF per fare previsioni sulle prestazioni di una cartiera.
Ho dati minuto per minuto per gli input (velocità e quantità di pasta di legno in entrata ecc.), Nonché per le prestazioni della macchina (carta prodotta, potenza assorbita dalla macchina) e sto cercando di fare previsioni 10 minuti avanti sulle variabili di prestazione.
Ho 12 mesi di dati, quindi li ho suddivisi in 11 mesi per il set di allenamento e l'ultimo mese per i test.
Finora ho creato 10 nuove funzionalità che sono valori ritardati di 1-10 minuti per ciascuna delle variabili delle prestazioni e ho usato queste e gli input per fare previsioni. Le prestazioni sul set di test sono state abbastanza buone (il sistema è abbastanza prevedibile), ma sono preoccupato che mi manchi qualcosa nel mio approccio.
Ad esempio, in questo articolo , gli autori affermano il loro approccio nel testare l'abilità predittiva del loro modello di foresta casuale:
La simulazione procede aggiungendo ripetutamente una nuova settimana di dati, formando un nuovo modello basato sui dati aggiornati e predicendo il numero di focolai per la settimana successiva
In che modo differisce dall'utilizzare i dati "successivi" nelle serie temporali come test? Dovrei convalidare il mio modello di regressione RF con questo approccio e sul set di dati di test? Inoltre, questo tipo di approccio "autoregressivo" alla regressione della foresta casuale è valido per le serie temporali e devo persino creare queste variabili ritardate se sono interessato a una previsione tra 10 minuti in futuro?