Come raggruppare le serie temporali?


22

Ho una domanda sull'analisi dei cluster. Ci sono 3000 aziende che devono essere raggruppate in base al loro consumo di energia nell'arco di 5 anni. Ogni azienda ha valori per ogni ora per 5 anni. Vorrei scoprire se alcune società hanno lo stesso modello di potere d'uso nel periodo di tempo. I risultati dovrebbero essere utilizzati per la previsione quotidiana del consumo di energia. Se hai qualche idea su come raggruppare le serie temporali in SPSS, ti preghiamo di condividere con me.


1
Ti suggerirei di consultare i link correlati sul lato destro della pagina. Ci sono alcune domande di natura molto simile, vedi È possibile fare un raggruppamento di serie temporali basato sulla forma della curva? e la modellazione di dati longitudinali in cui l'effetto del tempo varia in forma funzionale tra gli individui solo per due esempi.
Andy W,

La somiglianza con Proc in SAS può raggruppare serie temporali.
meteorologo

Risposte:


11

A) Dedicare molto tempo alla preelaborazione dei dati. La preelaborazione è il 90% del tuo lavoro.

B) Scegliere una misura di somiglianza appropriata per le serie storiche. Ad esempio, la distanza di attraversamento della soglia può essere una buona scelta qui. Probabilmente non desidererai la distanza di distorsione temporale dinamica, a meno che tu non abbia fusi orari diversi. Il superamento della soglia può essere più appropriato per rilevare i modelli temporali, senza prestare attenzione all'entità effettiva (che probabilmente sarà molto diversa da compagnia a compagnia).

C) Raggruppa la matrice di dissimlarità risultante usando metodi come il clustering gerarchico o DBSCAN in grado di funzionare con funzioni di distanza arbitrarie.


puoi spiegare perché la distanza di distorsione temporale dinamica non è una buona opzione per il raggruppamento di serie temporali?
Hardik Gupta,

Non era una dichiarazione generale. Se è buono o no dipende dal fatto che tu voglia consentire il distorsione temporale o meno.
Anony-Mousse - Restituisci Monica il

7

Potresti voler guardare le serie temporali orarie di previsione con periodicità giornaliera, settimanale e annualeper una discussione di dati orari relativi a dati giornalieri e festivi / regressori. Hai 5 anni di dati mentre l'altra discussione ha coinvolto 883 valori giornalieri. Quello che suggerirei è che potresti costruire una previsione oraria che includa regressori come il giorno della settimana; settimana dell'anno e festivi utilizzando i totali giornalieri come predittore aggiuntivo. In questo modo avresti 24 modelli per ciascuna delle 3.000 aziende. Ora quello che vuoi fare è per ora, stimare i 3.000 modelli usando una struttura ARIMAX comune tenendo conto del modello di risposta intorno a ciascuno dei regressori, il giorno della settimana, i cambiamenti nel giorno della settimana parametri e indicatori settimanali isolando i valori anomali. Quindi è possibile stimare i parametri a livello globale utilizzando tutte le 3000 aziende. Esegui un test Chow http://it.wikipedia.org/wiki/Chow_testper costanza di parametri e al momento del rifiuto raggruppano le società in gruppi omogenei. Ho fatto riferimento a questo come analisi di cluster a dimensione singola. Poiché SPSS ha capacità molto limitate nelle serie storiche, potresti voler cercare altrove il software.


1
"vaniglia" sembra una parola strana da usare su R; non chiaro sulla traduzione nella terminologia R più usuale. Qualsiasi distinzione tra base R e pacchetti con contributi extra di CRAN in realtà non morde gli utenti esperti, o anche quelli meno esperti, poiché sono ugualmente gratuiti e ugualmente accessibili. La mia impressione è che qualcuno che ha avuto accesso a SPSS possa dire abbastanza facilmente che al momento SPSS non è possibile fare qualcosa senza programmare; dire lo stesso di R richiede familiarità con tutti i pacchetti di serie temporali.
Nick Cox,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.