Rilevazione di serie temporali e anomalie


15

Vorrei impostare un algoritmo per rilevare un'anomalia nelle serie temporali e ho intenzione di utilizzare il clustering per questo.

  • Perché dovrei usare una matrice di distanza per il clustering e non i dati grezzi delle serie temporali ?,

  • Per il rilevamento dell'anomalia, userò il clustering basato sulla densità, un algoritmo come DBscan, quindi funzionerebbe in questo caso? Esiste una versione online per lo streaming dei dati?

  • Vorrei rilevare l'anomalia prima che accada, quindi utilizzare un algoritmo di rilevamento delle tendenze (ARIMA) sarebbe una buona scelta?


È scritto correttamente DBSCAN. È un'abbreviazione. Non sono sicuro di cosa stai cercando di fare. Rileva anomalie all'interno di una serie temporale o serie temporali anomale complessive.
Ha QUIT - Anony-Mousse il

Sì DBSCAN, esatto! Quello che sto cercando di fare è un'anomalia di rilevamento online in un set di dati di serie temporali! così! qualunque richiesta ? grazie saluti
napsterockoeur,

Online come in crescita timeseries o come in altre serie per essere aggiunti? Ancora una volta, questi sono molto diversi e devi essere molto chiaro su cosa intendi.
Ha QUIT - Anony-Mousse,

Intendo online (stream), una serie
temporale

Risposte:


12

Per quanto riguarda la tua prima domanda, ti consiglio di leggere questo famoso articolo (Il clustering delle sequenze temporali non ha senso) prima di fare il clustering su una serie storica. È chiaramente scritto e illustra molte insidie ​​che vuoi evitare.


6

Il rilevamento di anomalie o "Intervention Detection" è stato sostenuto da GCTiao e altri. Fare scienza è cercare schemi ripetuti. Rilevare anomalie è identificare valori che non seguono schemi ripetuti. Impariamo da Newton "Chiunque conosca le vie della natura noterà più facilmente le sue deviazioni e, d'altra parte, chiunque conosca le sue deviazioni descriverà più accuratamente le sue vie". Si imparano le regole osservando quando le regole attuali falliscono. Considera le serie storiche 1,9,1,9,1,9,5,9. Per identificare l'anomalia bisogna avere uno schema. Il "5" è un'anomalia tanto quanto lo sarebbe "14". Per identificare il modello è sufficiente utilizzare ARIMA e in questo caso "l'anomalia" diventa evidente. Prova diversi software / approcci e vedi quale suggerisce un modello ARIMA di ordine 1,0, 0 con un coefficiente di -1,0. Utilizzare le procedure di google / ricerca per trovare "arima automatico" o "rilevamento automatico degli interventi". Potresti essere deluso dalle cose gratuite in quanto potrebbe valere la pena pagarle. Scriverlo tu stesso potrebbe essere interessante se hai uno sfondo di serie temporali pesanti e un paio d'anni da sprecare. Vi sono serie limitazioni ai metodi basati sulla distanzahttp://www3.ntu.edu.sg/SCE/pakdd2006/tutorial/chawla_tutorial_pakddslides.pdf


Grazie mille Sir IrishStat, sto benissimo con te, che ci sono grandi limiti nei metodi basati sulla distanza e immagino anche gli altri metodi, ecco perché sto testando il metodo base di densità, ho visto molti articoli parlare sulla rilevazione di anomalie di serie temporali, come la ricerca della NASA, le università ecc. ma piccoli progressi, per particolari problemi di dati E recentemente ho trovato un buon software gratuito per il rilevamento di valori anomali: MOA di Weka! L'hai provato prima? è un software open source, sto cercando di usarlo per sviluppare e integrare il mio piccolo algoritmo di rilevazione anomalia,
napsterockoeur

oh: FYI: sto trattando un flusso di dati
napsterockoeur
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.