Sto cercando di configurare una grande infrastruttura di dati utilizzando Hadoop, Hive, Elastic Search (tra gli altri) e vorrei eseguire alcuni algoritmi su determinati set di dati. Vorrei che gli algoritmi stessi fossero scalabili, quindi questo esclude l'uso di strumenti come Weka, R o persino RHadoop. Il Mahout Biblioteca Apache sembra essere una buona opzione, ed è dotato di algoritmi per compiti di regressione e di clustering .
Quello che sto cercando di trovare è una soluzione per il rilevamento di anomalie o anomalie.
Dato che Mahout presenta modelli nascosti di Markov e una varietà di tecniche di clustering (compresi i K-Means) mi chiedevo se sarebbe stato possibile costruire un modello per rilevare valori anomali nelle serie temporali, usando uno di questi. Le sarei grato se qualcuno che mi avesse sperimentato potesse consigliarmi
- se è possibile, e nel caso lo sia
- come fare, in più
- una stima dello sforzo richiesto e
- accuratezza / problemi di questo approccio.