Rilevamento anomalo / anomalia scalabile


10

Sto cercando di configurare una grande infrastruttura di dati utilizzando Hadoop, Hive, Elastic Search (tra gli altri) e vorrei eseguire alcuni algoritmi su determinati set di dati. Vorrei che gli algoritmi stessi fossero scalabili, quindi questo esclude l'uso di strumenti come Weka, R o persino RHadoop. Il Mahout Biblioteca Apache sembra essere una buona opzione, ed è dotato di algoritmi per compiti di regressione e di clustering .

Quello che sto cercando di trovare è una soluzione per il rilevamento di anomalie o anomalie.

Dato che Mahout presenta modelli nascosti di Markov e una varietà di tecniche di clustering (compresi i K-Means) mi chiedevo se sarebbe stato possibile costruire un modello per rilevare valori anomali nelle serie temporali, usando uno di questi. Le sarei grato se qualcuno che mi avesse sperimentato potesse consigliarmi

  1. se è possibile, e nel caso lo sia
  2. come fare, in più
  3. una stima dello sforzo richiesto e
  4. accuratezza / problemi di questo approccio.

1
È troppo vago per ricevere una risposta. Le serie temporali sono troppo diverse per poterle semplicemente lanciare su k-mean e ottenere qualcosa di utile. Dipende fortemente dai tuoi dati.
Ha QUIT - Anony-Mousse il

1
Per il rilevamento anomalo, dai un'occhiata agli algoritmi in ELKI. Questa sembra essere la raccolta più completa di rilevamento anomalo.
Ha QUIT - Anony-Mousse il

Le versioni più recenti di Elasticsearch hanno il rilevamento anomalie delle serie temporali integrato (penso che tu debba acquistare l'X-Pack). Non sono sicuro di quali algoritmi stiano utilizzando, ma varrebbe la pena studiare una soluzione standard.
Tom,

Risposte:


7

Come si confronta t-digest con l'algoritmo p-square?
David Marx,

Grazie per la risposta: questo è un modello semplice per calcolare quantili estremi e penso che si adatta alle mie esigenze. Tuttavia per serie temporali più complesse che non hanno una distribuzione quasi stazionaria questo approccio potrebbe non riuscire, ed è allora che penso che avremmo bisogno di qualcosa di adattivo come una catena di Markov.
doublebyte,

0

Puoi fare riferimento alla mia risposta relativa al metodo di rilevamento delle anomalie h2o R o Python in stackexchange , poiché anche questo è scalabile.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.