Regressione della foresta casuale per la previsione di serie storiche


10

Sto tentando di utilizzare la regressione RF per fare previsioni sulle prestazioni di una cartiera.

Ho dati minuto per minuto per gli input (velocità e quantità di pasta di legno in entrata ecc.), Nonché per le prestazioni della macchina (carta prodotta, potenza assorbita dalla macchina) e sto cercando di fare previsioni 10 minuti avanti sulle variabili di prestazione.

Ho 12 mesi di dati, quindi li ho suddivisi in 11 mesi per il set di allenamento e l'ultimo mese per i test.

Finora ho creato 10 nuove funzionalità che sono valori ritardati di 1-10 minuti per ciascuna delle variabili delle prestazioni e ho usato queste e gli input per fare previsioni. Le prestazioni sul set di test sono state abbastanza buone (il sistema è abbastanza prevedibile), ma sono preoccupato che mi manchi qualcosa nel mio approccio.

Ad esempio, in questo articolo , gli autori affermano il loro approccio nel testare l'abilità predittiva del loro modello di foresta casuale:

La simulazione procede aggiungendo ripetutamente una nuova settimana di dati, formando un nuovo modello basato sui dati aggiornati e predicendo il numero di focolai per la settimana successiva

In che modo differisce dall'utilizzare i dati "successivi" nelle serie temporali come test? Dovrei convalidare il mio modello di regressione RF con questo approccio e sul set di dati di test? Inoltre, questo tipo di approccio "autoregressivo" alla regressione della foresta casuale è valido per le serie temporali e devo persino creare queste variabili ritardate se sono interessato a una previsione tra 10 minuti in futuro?


2
Le RF non sono progettate per e non integrano esplicitamente considerazioni temporali. Detto questo, perché usarli per questa analisi? Esistono molte metodologie di serie storiche. Sceglierne uno.
Mike Hunter,

2
@DJohnson Ho pensato che avrei tentato di imitare l'approccio nel documento: provare RF e confrontarlo con ARIMA. Stai suggerendo che non vale la pena dedicare tempo e utilizzare solo ARIMA?
Divertimento KRS il

4
@DJohnson, la meccanica dei modelli autoregressivi è molto simile a quella dei modelli di regressione trasversale. Una volta costruite le funzioni ritardate, perché non usare le RF come in un'impostazione trasversale? Penso che sia giusto provarli. Ma hai ragione sul fatto che altri metodi sono più popolari nelle serie storiche e che anche l'OP potrebbe trarre vantaggio dall'esplorarli.
Richard Hardy,

1
La mia opinione è che le RF sono come il martello in cui tutto diventa un chiodo. Con i dati descritti dall'OP, la mia prima scelta sarebbe un modello di dati panel o pool, non ARIMA.
Mike Hunter,

5
Mi sono imbattuto in questo proprio ora e ho letto il documento di cui un paio di giorni fa. Sto confrontando una foresta casuale e un LSTM per la previsione di serie temporali multivariate. È interessante notare che LSTM fa meglio includendo meno tempo nei dati di addestramento, ma quando aggiungo più anni di dati, i risultati di entrambi i metodi stanno convergendo ai risultati reali. Penso che ciò sia dovuto principalmente al fatto che le funzionalità forniscono informazioni sufficienti per superare la componente temporale. Comunque, ho pensato che fosse interessante. Inoltre, non ho mai visto ARIMA funzionare bene, tranne in casi stagionali molto ovvi, e ARIMA multivariata è ...
Hobbes,

Risposte:


6

In che modo differisce dall'utilizzare i dati "successivi" nelle serie temporali come test?

L'approccio che citi è chiamato previsione "rolling origin": l'origine da cui prevediamo viene "estesa" e i dati di addestramento vengono aggiornati con le nuove informazioni disponibili. L'approccio più semplice è la "previsione delle singole origini", in cui scegliamo una singola origine.

Il vantaggio della previsione sull'origine mobile è che simula nel tempo un sistema di previsione . Nella previsione della singola origine, potremmo per caso scegliere un'origine in cui il nostro sistema funziona molto bene (o molto male), il che potrebbe darci un'idea errata delle prestazioni del nostro sistema.

Uno svantaggio della previsione dell'origine rolling è il suo requisito di dati più elevato. Se vogliamo prevedere 10 passaggi con almeno 50 osservazioni storiche, allora possiamo fare questa singola origine con 60 punti dati complessivi. Ma se vogliamo fare 10 origini rotolanti sovrapposte, allora abbiamo bisogno di 70 punti dati.

L'altro svantaggio è ovviamente la sua maggiore complessità.

Inutile dire che non dovresti usare neanche i dati "successivi" nelle previsioni sull'origine mobile, ma usa solo i dati prima dell'origine che stai usando in ogni iterazione.

Dovrei convalidare il mio modello di regressione RF con questo approccio e sul set di dati di test?

Se disponi di dati sufficienti, una valutazione dell'origine progressiva ispirerà sempre più fiducia in me rispetto a una valutazione dell'origine singola, perché si spera che si possa calcolare la media dell'impatto dell'origine.

Inoltre, questo tipo di approccio "autoregressivo" alla regressione della foresta casuale è valido per le serie temporali e devo persino creare queste variabili ritardate se sono interessato a una previsione tra 10 minuti in futuro?

Sì, la previsione progressiva rispetto alla singola origine è valida per qualsiasi esercizio predittivo. Non dipende se usi foreste casuali o ARIMA o qualsiasi altra cosa.

Se hai bisogno delle tue variabili ritardate è qualcosa su cui non possiamo consigliarti. Potrebbe essere meglio parlare con un esperto in materia, che potrebbe anche suggerire altri input. Prova la tua RF con gli ingressi ritardati e senza. E confronta anche con benchmark standard come ARIMA o ETS o metodi ancora più semplici, che possono essere sorprendentemente difficili da battere .

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.