Suddivisione dei dati delle serie temporali in set di treni / test / convalida


12

Qual è il modo migliore per dividere i dati delle serie temporali in set di treni / test / validazione, dove il set di validazione verrebbe utilizzato per l'ottimizzazione dell'iperparametro?

Abbiamo 3 anni di dati sulle vendite giornaliere e il nostro piano è di utilizzare il 2015-2016 come dati di formazione, quindi campionare casualmente 10 settimane dai dati 2017 da utilizzare come set di convalida e altre 10 settimane dai dati 2017 per il set di test. Faremo quindi un passo avanti in ciascuno dei giorni nel set di test e convalida.

Risposte:


8

È necessario utilizzare una suddivisione in base al tempo per evitare la distorsione del futuro. Train / validation / test in this order by time.

Il set di test dovrebbe essere la parte più recente dei dati. È necessario simulare una situazione in un ambiente di produzione, in cui dopo la formazione di un modello si valutano i dati che arrivano dopo il momento della creazione del modello. Il campionamento casuale che usi per la validazione e la formazione non è quindi una buona idea.


5

Penso che il modo più completo per sfruttare i dati delle serie temporali per addestramento / convalida / test / previsione sia questo:

inserisci qui la descrizione dell'immagine

L'immagine è autoesplicativa? In caso contrario, si prega di commentare e aggiungerò altro testo ...


3

Invece di creare solo un set di training / validation set, è possibile creare più di questi set.

Il primo set di formazione potrebbe essere, diciamo, i dati di 6 mesi (primo semestre 2015) e il set di validazione sarà quindi i prossimi tre mesi (luglio-agosto 2015). Il secondo set di training sarebbe una combinazione del primo set di training e validazione. Il set di convalida è quindi i prossimi tre mesi (settembre-ottobre 2015). E così via.

Questa è una variante della convalida incrociata di K-Fold in cui i set di training sono una combinazione del set di training e validazione precedente.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.