Errore in cascata in Apache Storm


8

Durante la presentazione e il materiale di Summingbird da parte di Twitter, uno dei motivi menzionati per l'utilizzo dei cluster Storm e Hadoop insieme in Summingbird è che l'elaborazione attraverso Storm si traduce in una cascata di errori. Al fine di evitare questa cascata di errori e accumulo, il cluster Hadoop viene utilizzato per elaborare in batch i dati e scartare i risultati Storm dopo che gli stessi dati sono stati elaborati da Hadoop.

Quali sono i motivi alla base di questo accumulo di errori? e perché non è presente in Hadoop? Dal momento che non ho lavorato con Storm, non ne conosco i motivi. È perché Storm utilizza un algoritmo approssimativo per elaborare i dati al fine di elaborarli in tempo reale? o la causa è qualcos'altro?

Risposte:


4

Twitter utilizza Storm per l'elaborazione dei dati in tempo reale. Possono verificarsi problemi con i dati in tempo reale. I sistemi potrebbero andare in crash. I dati potrebbero essere elaborati inavvertitamente due volte. Le connessioni di rete possono andare perse. Molto può succedere in un sistema in tempo reale.

Usano hadoop per elaborare in modo affidabile i dati storici. Non conosco dettagli specifici, ma ad esempio ottenere informazioni solide dai registri aggregati è probabilmente più affidabile che collegarsi allo stream.

Se si affidassero semplicemente a Storm per tutto, Storm avrebbe problemi dovuti alla natura di fornire informazioni in tempo reale su vasta scala. Se hanno fatto affidamento su hadoop per tutto, c'è una buona dose di latenza. Combinare i due con Summingbird è il prossimo passo logico.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.