Come monitorare un disco rigido esterno per la qualità / salute dei dati


0

Non sapendo nulla dei dischi rigidi, mi chiedo come un provider di servizi cloud monitora i loro dischi rigidi per problemi (corruzione dei dati, perdita di dati, guasto del disco rigido, ecc.). La ricerca su google non rivela molto altro che "scarica il tuo kit di riparazione del produttore del disco rigido e premi la riparazione". Mi piacerebbe sapere cosa sta succedendo in quel processo di riparazione e, ancora meglio, come un fornitore di cloud monitora regolarmente i propri dischi rigidi per qualità. Ho letto da qualche parte che BackBlaze fa a quotidiano Analisi statistiche SMART sorta di cosa, per vedere come stanno facendo i loro dischi rigidi, ma non sono sicuro di cosa significhi.

Noi usiamo smartmontools per acquisire i dati SMART.

Il repo è Qui , ma mi piacerebbe sapere cosa sta facendo questo Smartmontools. Non necessariamente in dettaglio, ma una breve descrizione. Non posso davvero dire dal repository cosa fa.

Quello che immagino sarebbe successo (per monitorare un disco rigido) è questo. Creare un database con hash MD5 di ogni file. Esegui periodicamente la scansione dell'intero disco rigido e fai un checksum con ogni file con l'hash MD5 salvato. Ma sembra che sarebbe molto lento, specialmente sui dischi rigidi di terabyte. Non sono sicuro di quali tipi di errori si possano avere e quali tipi di notifiche si possono ottenere. Forse puoi usare eventi del file system , ma non sono sicuro di come funzionerebbe su un'unità esterna piuttosto che sulla macchina principale. Ma anche se funzionasse sul disco rigido esterno, non sono sicuro che verrebbe notificato quando i dati saranno corrotti a causa del vecchio dispositivo. Quindi sembra che l'unico modo per verificare che i dati siano corretti è quello di confrontare effettivamente i dati correnti con i vecchi dati. Ma a parte un checksum, non sono davvero sicuro di quale modo efficiente possa essere fatto per farlo.

La cosa principale che vorresti nel processo di monitoraggio è sapere quando un disco inizia a non funzionare, quindi puoi prepararti a cambiarlo. Riparare un disco è tutta un'altra cosa che non so come funzioni, ma non lo chiederò qui. Vorrei solo sapere come si controlla un disco rigido esterno e come si sa quando inizia a non funzionare correttamente (ovvero come si sa se i dati sono stati danneggiati / persi in modo efficiente e cose del genere) .

Questo sembra offrire alcune informazioni.

Invece di conoscere semplicemente "applica solo la tecnologia x", mi piacerebbe sapere come implementarlo realmente come un'applicazione o qualcosa, almeno le basi per iniziare.


1
Una cosa SMART da monitorare è l'ECC o il numero di Correzione errori eseguita dal disco rigido. Inizialmente sarà 0, ma man mano che il disco rigido invecchia, aumenterà e entrerà addirittura nei 100 milioni (a questo punto l'unità è così lenta che è dolorosa (credetemi, l'ho sperimentata di prima mano)). Ogni ECC rallenta il ciclo di lettura / scrittura in modo che la velocità si riduca nel tempo.
cybernard

Risposte:


0

"Mi chiedo come un provider di servizi cloud monitora i loro dischi rigidi per problemi"

Non lo fanno davvero. Le unità di solito falliscono improvvisamente. La risposta è costruire sistemi che sopravvivano al fallimento. I grandi servizi cloud utilizzano enormi cluster di server, in più edifici, hanno server che utilizzano array RAID con mirroring (che archiviano i dati in modo ridondante) e hanno server che rispecchiano altri server.

Ubicazioni ridondanti, server ridondanti, unità ridondanti nei server.

Google ha rilasciato studi sui tassi di errore del disco ecc. E in pratica: SMART è principalmente inutile e i guasti delle unità richiedono un grande salto dopo circa 3 anni.

Prendi un secondo disco nel mix, rispecchialo (Robocopy (parte di Windows) è un'ottima scelta per i consumatori) e sostituiscile ogni tre anni. Se riesci a ottenere una copia dei tuoi dati al di fuori del sito, fallo.

La riparazione delle unità è utile solo per ricavare contenuti per i quali non si dispone di backup. Non puoi più fidarti di loro e dovrebbero essere abbandonati. Se si dispone di un backup con mirroring, basta sostituire l'unità guasta con mirroring dei dati esistenti su di esso e andare avanti.

Io uso un dispositivo a basso consumo come un server sulla mia LAN con due unità esterne corrispondenti (cerco qualcosa di grosso intorno ai $ 100). Sposto i backup su un'unità server e il server pianifica un'operazione di mirroring di routine per duplicare il backup sull'altra unità. Immagino anche le mie macchine importanti una volta ogni tanto, quindi posso ripristinare l'installazione del sistema operativo se necessario.

Sostituisco i dischi esterni ogni pochi anni e di solito finisco per estrarre l'unità dal contenitore e utilizzarla per la memorizzazione in blocco di dati non critici, ad es. partite in una delle mie macchine principali fino al prossimo round.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.