Domanda: voglio essere sicuro di qualcosa, l'uso della convalida incrociata di k-fold con le serie temporali è semplice o è necessario prestare particolare attenzione prima di utilizzarlo?
Contesto: sto modellando una serie temporale di 6 anni (con catena semi-markov), con un campione di dati ogni 5 minuti. Per confrontare diversi modelli, sto usando una validazione incrociata di 6 volte separando i dati in 6 anni, quindi i miei set di allenamento (per calcolare i parametri) hanno una durata di 5 anni e i set di test hanno una lunghezza di 1 anno. Non sto prendendo in considerazione l'ordine dei tempi, quindi i miei diversi set sono:
- piega 1: allenamento [1 2 3 4 5], prova [6]
- fold 2: training [1 2 3 4 6], test [5]
- piega 3: allenamento [1 2 3 5 6], prova [4]
- piega 4: allenamento [1 2 4 5 6], prova [3]
- fold 5: training [1 3 4 5 6], test [2]
- piega 6: allenamento [2 3 4 5 6], prova [1].
Faccio l'ipotesi che ogni anno siano indipendenti l'uno dall'altro. Come posso verificarlo? C'è qualche riferimento che mostra l'applicabilità della validazione incrociata di k-fold con le serie temporali.