Tracciamento di eccezioni ed errori nei dispositivi IoT di produzione?

In che modo attualmente le aziende tengono traccia degli errori su dispositivi, gateway e piattaforme IoT? La mia azienda utilizza papertrail per aggregare i registri di tutti i dispositivi, tuttavia ciò spesso ci lascia a grattare tra più sistemi quando si verifica un errore nella produzione.

Sto cercando un modo per ridurre il nostro "time-to-root-cause" quando si risolvono eccezioni che potrebbero essere state generate in un posto (ad esempio su una piattaforma IoT), ma che hanno avuto origine a causa di un problema altrove nel stack - ad es. errore di dati dal dispositivo periferico.

In termini di ciò che ho trovato in questo spazio, Sentry e Rollbar sono utili per il monitoraggio delle eccezioni su server o app, ma non forniscono un mezzo per tenere traccia degli errori a cascata, come discusso nel paragrafo precedente.

Esistono sistemi per farlo meglio della registrazione del testo? In particolare, sto cercando di utilizzare gli eventi in stile breadcrumb che ricevi da Sentry, ma con il monitoraggio su un sistema distribuito.

remote-access product-design

— hookd
fonte

Traccia distribuita

L'idea alla base di qualsiasi traccia distribuita utile è più comunemente descritta in questo white paper di Google sulla loro soluzione Dapper . Nota che non sto dicendo che l'hanno inventato. In sostanza, funziona allo stesso modo per l'IoT, basta avviare la traccia sul bordo, del back-end o persino sui dispositivi finali.

Mentre il white paper di Google si concentra più o meno sui sistemi lato server, il concetto può essere facilmente adattato per includere i dispositivi terminali. La magia dell'uso degli ID trace e span per tracciare tutte le tue informazioni in tutti i sistemi può essere vista da ogni visualizzazione che Netflix fa tramite Vizceral, che recentemente hanno aperto. Ciò che nel blog viene visualizzato in Visualizzazione regionale è completamente basato su analisi del registro live in cui le chiamate sono correlate tramite ID traccia. Tieni presente che, come menzionato da Google nel documento di Dapper, Netflix ha un campionamento delle chiamate che chiamano sulla loro API. Google ha menzionato 1: 1000 nel documento - che ha pochi anni. Apparentemente Netflix ha già raggiunto 1: 1 milione su alcuni dei loro tipi di richiesta.

Non conosco il tuo sistema, ma molto probabilmente puoi iniziare con una traccia effettiva al 100%.

In entrambi i casi, purché sia possibile abbinare la traccia dall'inizio ai dispositivi IoT o persino creare gli ID di traccia sugli endpoint, in primo luogo non c'è nulla che ti impedisca di adattare queste idee in un modo che includa i dispositivi periferici.

— Helmar
fonte

Grazie Helmar, vorrei aver menzionato Dapper nella mia domanda originale perché avevo già letto su quell'area! C'è sicuramente spazio per farne uso, ma sperava anche di vedere se ci sono altre soluzioni già in uso?

— hookd