Mi è stato assegnato questo compito per analizzare i registri del server della nostra applicazione che contiene registri delle eccezioni, registri degli eventi dei registri del database, ecc. Sono nuovo di machine learning, usiamo Spark con ricerca elastica e Sparks MLlib (o PredictionIO). Un esempio del desiderato il risultato sarebbe essere in grado di prevedere in base ai registri delle eccezioni raccolti per essere in grado di prevedere quale utente ha maggiori probabilità di causare l'eccezione successiva e a quale funzione (e un sacco di altre cose per tenere traccia e migliorare l'ottimizzazione dell'applicazione).
Sono stato in grado di importare con successo i dati da ElasticSearch in Spark e creare DataFrames e mappare i dati necessari. Quello che vorrei sapere è come affrontare l'aspetto Machine Learning della mia implementazione. Ho esaminato articoli e articoli che parlano di preelaborazione dei dati, formazione dei modelli di dati, creazione di etichette e generazione di previsioni.
Le domande che ho sono
Come approccio a trasformare i dati del registro in uscita in vettori numerici che possono essere utilizzati per i set di dati da addestrare.
Quali algoritmi devo usare per addestrare il mio set di dati (con la conoscenza limitata che ho raccolto negli ultimi due giorni, stavo pensando di implementare la regressione lineare, suggerisci quale implementazione sarebbe la migliore)
Sto solo cercando suggerimenti su come affrontare questo problema.
Grazie.