Ho un insieme di dati di serie storiche. Ogni serie copre lo stesso periodo, anche se le date effettive di ciascuna serie temporale potrebbero non "allinearsi" esattamente.
Vale a dire, se le serie temporali fossero lette in una matrice 2D, sarebbe simile a questa:
date T1 T2 T3 .... TN
1/1/01 100 59 42 N/A
2/1/01 120 29 N/A 42.5
3/1/01 110 N/A 12 36.82
4/1/01 N/A 59 40 61.82
5/1/01 05 99 42 23.68
...
31/12/01 100 59 42 N/A
etc
Voglio scrivere uno script R che separerà le serie temporali {T1, T2, ... TN} in "famiglie" in cui una famiglia è definita come un insieme di serie che "tendono a muoversi in simpatia" l'una con l'altra.
Per la parte "clustering", dovrò selezionare / definire un tipo di misura della distanza. Non sono del tutto sicuro di come procedere, dal momento che ho a che fare con le serie temporali e un paio di serie che possono muoversi in simpatia su un intervallo, potrebbero non farlo in un intervallo successivo.
Sono sicuro che ci sono persone molto più esperte / intelligenti di me qui, quindi sarei grato per eventuali suggerimenti, idee su quale algoritmo / euristico usare per la misura della distanza e su come usarlo nel raggruppare le serie temporali.
La mia ipotesi è che NON esiste un solido metodo statistico per farlo, quindi sarei molto interessato a vedere come le persone affrontano / risolvono questo problema - pensando come uno statistico.