Documenti sulla gestione dei guasti nei sistemi distribuiti


10

Quali documenti sulla gestione degli errori nei sistemi distribuiti mi consiglia?


2
Non ho familiarità con l'argomento, ma non ce ne sono troppi? Inoltre, raccomandare per cosa?
Tsuyoshi Ito,

5
La domanda sembra essere troppo ampia; Immagino che metà di tutti i documenti nel calcolo distribuito siano in qualche modo legati alla tolleranza agli errori.
Jukka Suomela,

2
decisamente troppo ampio. voto per chiudere ...
Suresh Venkat,

Forse la domanda non è poi così male. Ho provato a raccomandare alcuni lavori di seguito.
Dai Le

1
La domanda sarebbe stata migliore se inizialmente avessi incluso queste informazioni come motivazione.
Dave Clarke,

Risposte:


8

Potresti dare un'occhiata alle opere che hanno vinto il premio Tushar D. Chandra, Vassos Hadzilacos e Sam Toueg il premio Edsger W. Dijkstra nel 2010 :

Questi documenti introducono la nozione di rivelatori di guasti in un sistema distribuito in un quadro generale e preciso. Intuitivamente, hanno cercato di studiare la quantità minima di informazioni sugli errori necessarie per risolvere il consenso. Si scopre che non è necessario un rilevatore di guasti perfetto per risolvere il consenso. Anche i rilevatori di guasti inaffidabili che soddisfano determinate condizioni minime saranno sufficienti per l'attività. Questi articoli sono stati molto influenti su come affrontare i guasti nei sistemi distribuiti.


3

Che tipo di guasti nel sistema Sei alla ricerca di soluzioni per la gestione dei guasti bizantini o solo il classico modello fail-stop? Le soluzioni in presenza di nodi bizantini in un sistema distribuito rappresentano il problema più intrigante. Il problema è stato formalizzato da Leslie Lamport (il problema dei generali bizantini "e l'articolo del 1999 di Barbara Liskov e Miguel Castro presenta la soluzione pratica di lavoro più vicina" Pratica tolleranza agli errori bizantina ". I modelli formali originali per gestire la tolleranza agli errori includono lo stato- approccio macchina di Fred Schneider e replica stampata Sono d'accordo che la domanda è molto generale, il campo è immenso e la teoria costituisce la base della maggior parte dei sistemi attualmente in esecuzione online. Forse un modello di errore più specifico e il dominio del problema aiuterebbero ad ottenere risposte migliori


3

Ecco una raccolta di schemi per gestire gli errori di gestione nei sistemi distribuiti:

In alternativa, per lavori più generici, c'è il libro Introduzione alla programmazione distribuita affidabile di Rachid Guerraoui e Luis Rodrigues, che ha una vasta gamma di algoritmi pratici tra cui molte varianti di recupero da guasti. Il testo più classico Algoritmi distribuiti di Nancy Lynch copre un terreno simile da una prospettiva più teorica.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.