Sostituzione dei dischi rigidi [chiuso]


19

Mi chiedevo se è una buona idea sostituire un disco rigido in un server di database (abbastanza) critico di sistema dopo un certo numero di anni prima che muoia.

Ad esempio, stavo pensando di sostituire un disco rigido dopo 3 anni di utilizzo. Dal momento che ho molti dischi rigidi tra server, potrei scaglionare quali dischi rigidi vengono sostituiti.

È una buona idea o la gente aspetta solo l'errore?

Risposte:


33

Google ha condotto uno studio su unità disco e ha riscontrato una correlazione molto ridotta tra età del disco e errore. Inoltre, i test SMART non mostrano errori.

Le mie osservazioni locali (> 500 server) sono simili. Ho nuovi dischi che si guastano rapidamente mentre quelli vecchi continuano ad affannarsi.

La mia regola generale è che se abbiamo riscontrato problemi con il disco (errori SMART o di sistema), lo sostituiamo immediatamente. In caso contrario, le unità si spengono quando il server lo fa.

Google Study http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/archive/disk_failures.pdf


In genere era quello che stavo pensando, ma volevo vedere cosa facevano gli altri. Grazie
Garfonzo il

2
Concordo. Stiamo riscontrando tassi di errore molto più alti con le nuove unità SAS da 2,5 "rispetto ai server di 10 anni che eseguono unità SCSI da 3,5" da 9 GB!
James O'Gorman,

@ JamesO'Gorman I processi di produzione cambiano ... mi chiedo cosa sia stato fatto ai nuovi azionamenti come parte di un "compromesso" ingegneristico.
Avery Payne,

1
Microsoft Technet ha anche un articolo sulla tolleranza agli errori che tocca brevemente i guasti del disco rigido / dei componenti meccanici ( technet.microsoft.com/en-us/library/bb742464.aspx ) - Parlano un po 'della "curva della vasca" che meccanica i guasti ai componenti tendono a seguire.
voretaq7,

@AveryPayne Per quanto riguarda le nuove unità, tenere presente che le unità da 2,5 "hanno tolleranze MOLTO più strette. Di conseguenza, ciò che una volta era una pendenza meccanica" accettabile "su un'unità da 3,5" può portare a un guasto catastrofico su un'unità da 2,5 ". Vedere anche l'articolo TechNet Mi sono collegato alla curva della vasca da bagno - I componenti meccanici soffrono di un'alta mortalità infantile in generale, e quindi sono relativamente stabili fino a quando non muoiono infine di "vecchiaia". I motori da 2,5 "sono ancora nel territorio di" mortalità infantile "- per la mia esperienza con almeno 1 anno di attività.
voretaq7,

13

No.

Uno dei maggiori problemi con la sostituzione di un disco rigido su un server di produzione attivo è che ciò farà scattare una ricostruzione. Soprattutto se si utilizza RAID5 e soprattutto se si utilizzano unità di grandi dimensioni, forzare una ricostruzione crea un rischio molto significativo di un errore irreversibile. Il rischio di perdere l'array durante una ricostruzione è di gran lunga maggiore del rischio legato a lasciare in sede un'unità di 3 anni.

Prendendo un esempio estremo, se si sostituisce successivamente ogni disco in un array RAID5 a 6 dischi composto da dischi da 2 TB, il rischio teorico di un errore di lettura irrecuperabile durante una delle ricostruzioni è del 58% circa (secondo la mia matematica del tovagliolo; si prega di fare il proprio e confrontare le note). In altre parole: la sostituzione del disco "preventivo" non è, in effetti, nient'altro che un atto di sabotaggio.

L'unica volta in cui prenderei in considerazione l'aggiornamento delle unità in un vecchio server sarebbe nel corso del "rinnovo", ad esempio dopo essere stato ritirato da un'attività e prima di rimetterlo in servizio con un nuovo ruolo. Anche a quel punto, i requisiti di capacità e prestazioni sarebbero molto più importanti dell'età delle unità.


1
+1 per l'attivazione della ricostruzione
gregmac,

Puoi spiegare perché il rischio è del 58%? Se il disco viene pattugliato regolarmente perché dovrebbe stressare di più un recupero?
Mircea Vutcovici,

@MirceaVutcovici perché in una disposizione RAID-5, tutte le unità saranno costantemente attive durante la ricostruzione rispetto alla ricerca casuale occasionale qui o là. In altre parole, il "carico" su tutte le unità aumenta e, facendo ciò, aumenta anche il rischio di innescare una seconda unità guasta.
Avery Payne,

@Avery Payne So che stresserai di più i dischi durante una ricostruzione. Sto cercando di capire perché una ricostruzione potrebbe stressare i dischi più di un controllo di coerenza.
Mircea Vutcovici,

@MirceaVutcovici La cifra esatta (e come fare la matematica) è discutibile, ma la linea di fondo è che devi leggere 10 terabyte di dati sei volte , senza il vantaggio di un disco di parità per correggere eventuali errori di lettura, al fine di eseguire il sei ricostruzioni. La probabilità di leggere 60 terabyte di dati, senza errori, non è a tuo favore.
Skyhawk,

3

Non l'ho visto Manteniamo i server in garanzia fino a quando non vengono messi fuori produzione - 5 anni. RAID 5 standard ti consente di sopravvivere a un guasto del disco, quindi teniamo a portata di mano un paio di unità in modo da poter iniziare subito una ricostruzione e su server critici, includiamo un hotspare o vai su RAID 10.

Se hai notato che diverse unità si guastano recentemente in un server potresti avere un problema con il backplane. Potrebbero esserci nuove vibrazioni o polvere anche dalla costruzione vicina.


Questo non è del tutto vero. se un gran numero di dischi proviene dallo stesso lotto, si corre un rischio molto più elevato di errore simultaneo quando si aggiunge lo stress di una ricostruzione. Come notato in un'altra risposta, dimensioni crescenti di ARID5 eseguono crescenti probabilità di un URE durante la ricostruzione che porta l'array al di sotto della soglia di validità raid5.
Magellan,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.