In che modo attualmente le aziende tengono traccia degli errori su dispositivi, gateway e piattaforme IoT? La mia azienda utilizza papertrail per aggregare i registri di tutti i dispositivi, tuttavia ciò spesso ci lascia a grattare tra più sistemi quando si verifica un errore nella produzione.
Sto cercando un modo per ridurre il nostro "time-to-root-cause" quando si risolvono eccezioni che potrebbero essere state generate in un posto (ad esempio su una piattaforma IoT), ma che hanno avuto origine a causa di un problema altrove nel stack - ad es. errore di dati dal dispositivo periferico.
In termini di ciò che ho trovato in questo spazio, Sentry e Rollbar sono utili per il monitoraggio delle eccezioni su server o app, ma non forniscono un mezzo per tenere traccia degli errori a cascata, come discusso nel paragrafo precedente.
Esistono sistemi per farlo meglio della registrazione del testo? In particolare, sto cercando di utilizzare gli eventi in stile breadcrumb che ricevi da Sentry, ma con il monitoraggio su un sistema distribuito.