C'è un motivo per cambiare il disco rigido di un server prima che si guasti?


11

Solo una domanda veloce: c'è un motivo per cambiare il disco rigido di un server dopo x anni prima che si guasta (alla fine lo farà ad un certo punto) o dovrei lasciarlo fino a quando non si guasta? Ho poca esperienza con l'amministrazione effettiva del server, quindi mi chiedo ...


Non mi aspettavo di ricevere così tante risposte, wow :) Dopo averle esaminate tutte e tenuto conto del fatto che a) I dischi rigidi del server sono adeguati ai suoi scopi b) Il backup è assolutamente garantito (utilizzando RAID + Replication Slave + backup giornaliero su una fonte esterna) Non trovo motivo per suggerire un cambio di unità. Ringrazia tutti!
Spiros,

Risposte:


8

Un ottimo motivo per cambiarlo è se si desidera aggiungere un'altra attività all'elenco delle cose da fare aumentando le possibilità che qualcosa vada storto.

A parte gli scherzi, non c'è davvero alcun motivo per cui ho sentito parlare di cambiare il disco in anticipo. Se hai RAID in atto, hai già la protezione in atto (supponendo che tu abbia backup decenti) e non stai generando materiale di scarto sotto forma di un disco morto da smaltire e non devi lavorare inutilmente per eliminare dati sensibili dall'unità. Non spenderai denaro extra per i nuovi dischi e non proteggerai comunque proattivamente da cose che potrebbero comunque andare male, come un controller di disco difettoso, che non è comune come fonte di guasto del disco ma può accadere.

D'altra parte, questo potrebbe aiutarti a scoprire errori di unità irrecuperabili che non stanno innescando allarmi sull'unità RAID, come era accaduto con RAID 5. Siamo stati morsi da questo e abbiamo finito per dover ricostruire dal metallo nudo dal backup (quindi anche in tal caso, un backup adeguato ti aiuterà a recuperare.) Un livello RAID che prende in considerazione le capacità dell'unità più grandi di oggi e tolleranze di errore irrecuperabili ci avrebbe aiutato, in caso contrario, i backup a salvare la situazione.

La maggior parte degli amministratori dispone di un decente piano RAID e di backup, quindi non è necessario generare ulteriori sprechi sostituendo inutilmente le unità.


6

L'unica volta che potrei considerare questo è se avessi avuto un sacco di dischi dallo stesso batch e altri nel batch avessero iniziato a fallire, quindi potrei considerarlo.

Se fossi stretto nello spazio, sicuramente lo farei, ma per nessun altro motivo se non perché sta invecchiando? No, perché in media il tasso di fallimento nel primo anno è simile al tasso di fallimento di altri anni . (nota che il grafico mostra il primo anno in 3 mesi, 6 mesi, 1 anno, ma dovresti aggiungerli tutti insieme per avere la possibilità di fallimento a 1 anno). E quando si guarda all'utilizzo elevato del disco, è più probabile che fallisca nel primo anno rispetto ai tre anni successivi messi insieme.

L'unica correlazione a guasti all'unità tardiva era nelle sale più calde e manteniamo fresche le nostre sale server.


5

Sono tutto per essere proattivo, ma non l'ho mai fatto e non ho mai sentito parlare di nessuno. Presumibilmente hai un qualche tipo di configurazione RAID e hai backup regolari e validi per i sistemi in questione.


5
+1, mai considerato. La sostituzione di un disco, nel caso specifico e l'attivazione intenzionale di una ricostruzione dell'array non sembrano il modo migliore per "esercitare" i dischi di produzione rimanenti. Sii più difficile spiegare al capo perché il sistema non funziona se la ricostruzione fallisce.
jscott,

3
Sostituisco i dischi che presentano errori SMART, ma li considererei non riusciti, anche se tecnicamente funzionano ancora.
Chris S,

4

Sì, prestazioni e capacità. Se il vecchio disco rigido esegue letture sostenute di 70 MB / sec e 100 IOPS e la sostituzione potenziale esegue letture sostenute di 200 MB / sec e 175 IOPS e ha anche 3 volte la capacità che potresti essere giustificato per acquistare nuove unità e sostituire quelle vecchie semplicemente con nuove motivi di prestazioni / capacità. (e quei numeri sono totalmente inventati, il punto è più recente può essere significativamente più veloce).

Ora cosa fai con le vecchie unità. È possibile utilizzarli in un server di prova o aggiungerli a un backup su array di dischi o trattenerli come pezzi di ricambio di emergenza. Oppure potresti semplicemente cancellarli e inviarli per lo smaltimento.

Il tuo server medio al giorno è legato all'IO più di quanto sia associato al processore (o almeno a tutti i miei). Quindi, se hai un server davvero vecchio che non ha problemi con il tempo della CPU o la carenza di memoria, probabilmente avrai spazio per migliorare significativamente le prestazioni sostituendo i dischi rigidi che sono diverse generazioni dietro ciò che puoi facilmente acquistare per sostituirli.


3

Dipende dall'impatto in caso di guasto del disco rigido.

Se non si dispone di un RAID
Se non si tiene conto della disponibilità del server perché il servizio può essere interrotto o perché è in alta disponibilità e se si dispone di un backup dei dati funzionante. Direi Ok, lascia che l'unità muoia e la cambi e ripristini i dati quando si guasta.
Se ti interessa la disponibilità, dirò di usare RAID;)

Se si dispone di un RAID (1, 5, 6, ...)
direi, perché cambiare il disco rigido prima dell'errore? RAID (e backup) è qui per questo. La modifica di un disco rigido nel caso in cui possa guastarsi è un rischio che si rompa qualcosa (la ricostruzione del raid è sempre rischiosa)

Ma è solo il mio punto di vista! Se ritieni che l'unità potrebbe essere troppo vecchia, potresti voler cambiare anche il tuo server.


2

Alcuni dischi muoiono in 1 ora, altri durano 2 decenni.

Se non ha esito negativo o negativo (cosa che di solito è possibile stabilire tramite il monitoraggio SMART o problemi di prestazioni), l'unico altro motivo per buttarlo fuori è se non è abbastanza grande o abbastanza veloce per i tuoi scopi.


1
Basta monitorare l'unità con SMART e di solito mostrerà i segni di guasto prima che sia troppo tardi.
Prof. Moriarty,

@Prof Lo studio su disco di massa di Google ha mostrato che SMART era "solitamente" affidabile il 44% -72% delle volte. static.googleusercontent.com/external_content/untrusted_dlcp/…
jscott

2

Con i dischi, la domanda non è se falliranno, ma quando . Sono dispositivi meccanici (a meno che non utilizzino SSD, ma hanno i loro avvertimenti), quindi falliranno, prima o poi.

I produttori di dischi tendono a personalizzare i loro processi di produzione in modo che siano il più economici possibile, perché anche un singolo centesimo risparmiato per disco può essere abbastanza importante quando ne produci e vendi migliaia; ma ovviamente non vogliono che i loro dischi si guastino prima della scadenza del periodo di garanzia, o li sostituiranno gratis tutto il tempo; quindi, spenderanno felicemente tutto il necessario per farli durare fino a quando la garanzia li copre ... ma non un centesimo in più.

Il risultato finale è: la maggior parte dei dischi tende a guastarsi subito dopo la scadenza del periodo di garanzia. Questa ovviamente non è una regola generale, sono solo statistiche e il tuo disco potrebbe non funzionare ora o durare fino a quando non ne avrai più bisogno ... ma, statisticamente, ci sono molti dischi che si guastano pochi giorni o mesi dopo il loro la garanzia è scaduta.

Ovviamente, acquistarne di nuovi quando non sono ancora necessari può essere costoso ... ma sostituirli dopo che la garanzia è scaduta e hanno fallito sarà comunque costoso.

Ora, se tu potessi trovare un modo per farli fallire mentre sono ancora garantiti (e non perdere dati nel processo, cioè avere buoni RAID E backup), beh, sarebbe ottimale ;-)


2

Non sostituirei un disco funzionante più di quanto sostituirei un alimentatore funzionante. Entrambi alla fine falliranno, ma non ha senso, tecnicamente o finanziariamente, sostituirli senza una buona causa. Sostituiscili quando iniziano a mostrare segni di problemi.

Nel caso dei dischi rigidi, la tendenza è che se un disco si guasta presto, molto probabilmente lo farà nel primo anno. Le unità che hanno funzionato senza problemi per 6 anni possono normalmente essere invocate per continuare a funzionare per almeno qualche anno ancora. Ovviamente ci sono molte eccezioni a questo, ma è la tendenza generale.


1
Tu (di solito) non perdi dati in caso di interruzione dell'alimentazione ...
Massimo

1
@Massimo: vero, ma su un server di solito non perdi dati quando un'unità si guasta. Secondo me, se non c'è ridondanza, è solo una workstation glorificata, non un vero server.
John Gardeniers,

1

Inoltre, tieni presente che la maggior parte delle unità di classe server hanno requisiti di produzione più rigorosi e sono generalmente più affidabili delle unità desktop a basso costo / budget. Quindi, a parte i pericoli legati alla sostituzione di un'unità "buona" in caso di possibile guasto, farlo per un array di grandi dimensioni può comportare una somma ingente.

Inoltre, quando si utilizza un RAID, è una buona idea avere almeno un hot spare nel server, in modo che possa iniziare rapidamente a ricostruire e rimanere integro fino a quando non si acquistano sostituzioni secondo necessità.


1

L'ho fatto su sistemi "zero-downtime". Davvero, è altrettanto probabile che si perda un'unità diversa quando si ricostruisce il RAID ... Ne ho sostituito uno una volta, quindi ho finito per sostituirlo quando un'altra unità ha iniziato a lanciare errori durante la ricostruzione.

È davvero una domanda di filosofia: se credi negli stress test proattivi (sia dell'array che del tuo sistema cardiovascolare), dovresti scambiare le tue unità. Ma davvero, non saprai mai quale unità andrà male dopo. Non è affatto improbabile che tu possa perdere l'unità appena sostituita prima di perdere una delle unità più vecchie e collaudate.

Detto questo, sprecherei il mio tempo nello stress test della mia soluzione di backup e lascerei le unità in pace fino a quando non iniziano effettivamente a lanciare errori.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.