Perché i miei dischi rigidi si guastano?


23

Ho un piccolo server Ubuntu in esecuzione a casa, con 2 dischi rigidi. Esistono due raid software (raid1) sui dischi, gestiti da mdadm, che ritengo irrilevanti, ma citandoli comunque.

Entrambi i dischi rigidi sono Western Digital e sono stati utilizzati per circa 2 anni, quando uno di loro ha iniziato a emettere rumori di clic e è morto. Ho pensato che forse fosse naturale dopo 2 anni, quindi ne ho comprato uno nuovo e ho risincronizzato gli array dei raid. Dopo circa un mese, anche l'altro disco è morto.

Non sono diventato sospettoso, dal momento che entrambe le unità sono state acquistate contemporaneamente, non è poi così sorprendente vederle entrambe vicine, quindi ne ho comprata un'altra.

Finora, 2 vecchie unità si sono guastate e 2 nuove nel sistema. Dopo un mese, una delle nuove unità è morta. Questo è quando ha iniziato a diventare sospettoso. Da quando il PC è stato messo insieme da alcune parti molto vecchie (pensa AthlonXP), ho pensato che forse il controller SATA della scheda madre è il colpevole. Ovviamente non è possibile cambiare facilmente le parti in un vecchio PC come questo, quindi ho acquistato un intero sistema, nuovi MB, nuova CPU, nuova RAM. Ha preso l'unità appena fallita, poiché era in garanzia e l'ha fatta sostituire.

Quindi sono fino a 2 unità guastate da quelle vecchie e 1 unità guasta da quelle nuove. Nessun problema, per 1 mese. Dopo che gli errori si sono nuovamente insinuati in / var / log / messages, e mdadm ha riportato errori dell'array raid. Ho iniziato a strapparmi i capelli. Tutto è nuovo nel sistema, dipende dal terzo disco rigido nuovo di zecca, semplicemente non è possibile che tutte le nuove unità che ho acquistato fossero difettose.

Vediamo cosa è ancora comune ... i cavi. Ok, a lungo termine, sostituiamo i cavi SATA. Riporta il disco rigido, sorridi al ragazzo al banco e dì che sono davvero sfortunato. Sostituisce il disco rigido. Torno a casa, passa un mese e uno dei dischi rigidi si guasta, di nuovo. Non sto scherzando.

Due dei nuovissimi dischi rigidi si sono guastati. Forse è un bug nel sistema operativo. Vediamo cosa dice lo strumento di test del produttore. Scarica lo strumento di test, masterizzalo su un CD, riavvia, lascia il test del disco rigido durante la notte. Il test dice che l'unità è difettosa e dovrei eseguire il backup di tutto, se ancora posso. Non so cosa stia succedendo, ma non sembra un problema con il software, qualcosa sta sicuramente schiacciando i dischi rigidi.

Vorrei ora menzionare che l'intero sistema è in una scatola da scarpe. Dato che ci sono un sacco di cose "costruisci il tuo caso ikea", ho pensato che non ci dovrebbero essere problemi a gettare la cosa in una scatola e riporla da qualche parte. La scatola è ben ventilata, ma ho pensato che forse le unità si stavano surriscaldando. Non c'è altra risposta possibile a questo. Quindi ho ripreso il disco rigido e l'ho sostituito (per la terza volta) e ho acquistato dispositivi di raffreddamento del disco rigido.

E proprio ora, ho sentito il suono del destino. fai clic fai clic su whizzzzzzzzz . SSH nella scatola:

You have new mail!
mail
r 1
DegradedArrayEvent on /dev/md0 ...

uscita dmesg:

[47128.000051] ata3: lost interrupt (Status 0x50)
[47128.000097] end_request: I/O error, dev sda, sector 58588863
[47128.000134] md: super_written gets error=-5, uptodate=0
[48043.976054] ata3: lost interrupt (Status 0x50)
[48043.976086] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[48043.976132] ata3.00: cmd c8/00:18:bf:40:52/00:00:00:00:00/e1 tag 0 dma 12288 in
[48043.976135] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[48043.976208] ata3.00: status: { DRDY }
[48043.976241] ata3: soft resetting link
[48044.148446] ata3.00: configured for UDMA/133
[48044.148457] ata3.00: device reported invalid CHS sector 0
[48044.148477] ata3: EH complete

Ricapitolare:

  1. Nessuna possibilità di surriscaldamento
  2. 6 unità sono guaste, 4 di queste sono nuove di zecca. Non sono sicuro ora che i due originali siano stati difettosi o abbiano subito la stessa cosa di quelli nuovi.
  3. Non c'è nulla di comune nel sistema, a parte il sistema operativo che ora è Ubuntu Karmic (iniziato con Jaunty). Nuovo MB, nuova CPU, nuova RAM, nuovi cavi SATA.
  4. No, i piccoli fori sul disco rigido non sono coperti

Sto piangendo. Veramente. Non ho la faccia per tornare al negozio ora, non è possibile che 4 unità si guastino meno di 4 mesi.

Alcune idee a cui ho pensato: è possibile che sbagli qualcosa quando partiziono e risincronizzo le unità? Può essere così male che distrugge fisicamente l'unità? (poiché lo strumento fornito dal fornitore dice che l'unità è danneggiata) Faccio il partizionamento con fdisk e utilizzo la stessa dimensione del blocco per le partizioni raid1 (Controllo le dimensioni esatte del blocco con fdisk -lu)

È possibile che il kernel Linux o mdadm o qualcosa non sia compatibile con questa esatta marca di dischi rigidi e li schiaccia?

È possibile che possa essere la scatola da scarpe? Prova a posizionarlo altrove? Ora è sotto uno scaffale, quindi anche l'umidità non è un problema. È possibile che una normale custodia per PC risolva il mio problema (mi sparerò allora)? Domani avrò una foto.

Sono semplicemente maledetto?

Qualsiasi aiuto o speculazione è molto apprezzato.

Modifica : la ciabatta è protetta contro le sovratensioni.

Edit2 : Mi sono spostato tra questi 4 mesi, quindi la possibilità che la causa sia elettricità "sporca" in entrambi i posti, è molto bassa.

Edit3 : ho verificato le tensioni nel BIOS (non potevo prendere in prestito un multimetro), e sono tutte corrette, la più grande discrepanza è nei 12V, perché fornisce 11.3. Dovrei essere preoccupato per quello?

Edit4 : ho inserito l'alimentatore del mio PC desktop nel server. Il BIOS ha riportato letture della tensione molto più accurate e ha anche ricostruito con successo l'array raid1, che ha richiesto 3-4 ore, quindi ora mi sento un po 'positivo. Domani riceverò un nuovo alimentatore per testarlo. Inoltre, allegando l'immagine sulla scatola: (ignora la terza unità)

foto della scatola del destino


7
perché odi così tanto i dischi rigidi ?!
Jeff Atwood,

3
È il contrario, mi odiano. Con passione.
K. Norbert,

4
WishCow, se il test dell'unità si è verificato con un alimentatore instabile, ciò riflette solo il funzionamento dell'unità con un'alimentazione instabile. Molte volte l'hardware che si guasta con una scarsa alimentazione fornita funziona bene quando viene fornito con una potenza adeguata. Francamente, la cattiva alimentazione costituisce una frazione ENORME di tutti i problemi hardware. La mia prima azione quando sospetto che un componente hardware difettoso sia provare un alimentatore noto ...
Richard T,

3
Una presa multipla ti proteggerà solo dalle sovratensioni; non ti proteggerà dalla sottotensione. Come indicato da altri, un UPS (almeno degno del suo sale) "pulirà" l'energia sporca perché funzionerà a batteria, anziché direttamente dalla presa di corrente.
Wayne Hartman,

3
Ciao WishCow, hai messo a terra i componenti collegandoli tutti insieme con qualsiasi materiale conduttore. Tradizionalmente, le persone usano un "caso", ma è possibile utilizzare i fili. Le unità disco hanno molti fori filettati per viti: sono perfetti. La scheda madre potrebbe essere un po 'più complicata perché doveva essere messa a terra attraverso i prigionieri di montaggio in una custodia. Fanno "stand-off" fermi che hanno una vite su un'estremità e hanno filettature in altro. È possibile utilizzare uno di questi, una vite e un dado per fissarli a uno dei fori di montaggio della scheda, mantenendo l'attacco del filo lontano dalla scheda stessa. -cont-
Richard T

Risposte:


26

Anche il tuo alimentatore è vecchio? Forse è sotto / sopraffare l'unità che sta causando il guasto. Se hai un multimetro, proverei a misurare la tensione che è in esecuzione nei tuoi dischi rigidi e lo guarderei per un periodo di tempo. Un altro colpevole potrebbe essere l'elettricità "sporca", quindi un UPS potrebbe essere in ordine in modo che "pulisca" l'energia che entra nel PSU.


Il psu! Anche quello è vecchio, sì, cercherà di ottenere un multimetro. Ho dimenticato di menzionarlo, ma la ciabatta è protetta dalle sovratensioni, almeno è un tipo speciale. Grazie per il suggerimento
K. Norbert,

Un alimentatore difettoso potrebbe causare guasti ai componenti elettrici come i dischi rigidi. L'alimentatore è stata la prima cosa di cui ho sentito quando ho letto il tuo post.
Preoccupato di

Andando a contrassegnare questo accettato, fino a quando gli HDD si arrenderanno di nuovo, e esamineranno la messa a terra dei componenti. Grazie per il consiglio!
K. Norbert,

WishCow, spero ti renda conto ormai che questa non è la risposta corretta. Il problema è / era che non hai fornito alcun motivo per i componenti.
Richard T,

2
Le probabilità sono che sia l'alimentatore più l'assenza di messa a terra. La tensione + 12V che citi è molto bassa (in realtà fuori dalle specifiche ATX) e so per esperienza quanto gli HDD vulnerabili siano a bassa tensione - producono tutti i tipi di strani errori in modo da pensare che il tuo MB, CPU o memoria sia in errore. Per chiunque lavori con i PC vale la pena tenere in giro un alimentatore noto solo per poter verificare che un problema non sia legato all'alimentazione.
raw_noob

14

Sono d'accordo con gli altri: il potere.

Tuttavia, con una svolta.

TUTTI i componenti devono avere un terreno COMUNE - il telaio è tipico, ma nel tuo caso, chi lo sa! Un "terreno alla deriva" causerebbe questo, ne sono sicuro.

Volete tutti i componenti legati a un unico terreno E quel terreno legato alla messa a terra dalla terra della "rete elettrica" ​​della vostra struttura. Questo è importante.

A proposito, è possibile che tutto il tuo vecchio hardware sia effettivamente ancora OK! Ho scoperto che le apparecchiature che venivano servite con un alimentatore instabile a volte sopravvivono a OK quando viene fornito un alimentatore adeguato.

Spero che aiuti.

RT


Oddio, spero che il vecchio hardware non funzioni, dato che l'ho buttato fuori. Lo strumento tester ha detto che gli HDD sono rotti. Proverà a sostituire l'alimentatore.
K. Norbert,

6
Ho avuto problemi di messa a terra con un sistema "senza case" (tutte le parti erano montate su plexy e appese al muro). La soluzione era quella di far passare un singolo filo di terra dalla custodia dell'alimentatore alla custodia di ciascun dispositivo e alla terra della scheda madre.
Chris Nava,

5

Questo è un vecchio post e la domanda originale potrebbe non essere più pertinente per la persona che ha posto la domanda. Tuttavia, per riferimento futuro alle persone che costruiscono un PC economico, Power non è un problema onnicomprensivo con le unità disco. Secondo la mia opinione professionale come ingegnere dell'implementazione certificato EMC, è una risposta fuorviante incolpare un alimentatore come unica parte responsabile dato che il computer si trova all'interno di una scatola di cartone.

I dischi rigidi vibrano e sebbene non vi sia una posizione particolare, verticale o orizzontale, che aumenti o diminuisca la longevità di un disco, esiste tuttavia un fattore di vibrazione che crea un disco rigido con mandrini. Le unità visualizzate qui sono solo in una scatola di cartone. Questo è un esempio di ingegneria del budget e le unità vibranti sono posizionate su un lato, aumentando ulteriormente la risonanza sul piatto. Sebbene questa non sia una risposta in sé, i dischi rigidi montati in modo errato POSSONO portare a un guasto del disco a causa di un piatto vibrante che impedisce alle testine di lettura e scrittura di toccare correttamente il piatto.

Alimentazione, alimentatori economici sono sempre dannosi per i computer in generale, tuttavia è improbabile che questo alimentatore abbia ucciso i dischi rigidi e non altri componenti più sensibili sulla scheda. Questo sistema si trova in una scatola di cartone, quindi l'ingegneria e la potenza avrebbero potuto portare a un guasto più catastrofico, ma non necessariamente al suo errore del disco. È possibile, ma non dimostrato in questo caso.

Calore: il calore può distruggere un disco, tuttavia, se non era caldo al tatto al momento del fallimento, il calore non è il colpevole. Una scatola di cartone non è una buona impresa di ingegneria per un PC o un server. È meglio imbullonare le parti sulla scrivania di un computer o su un banco da lavoro, almeno sarebbero messe a terra.

Soft RAID e unità economiche. Data la scatola di cartone e le vecchie parti visualizzate nella foto, sembra che tu stia utilizzando unità desktop standard e un Soft RAID. Le unità desktop possono essere posizionate su un controller RAID, tuttavia, con la maggiore I / O sul disco, aumenta la possibilità di un errore del disco. I dischi riprodotti in questo caso non si trovano su un controller RAID hardware, ma vengono raggruppati insieme a un componente software sulla scheda madre. Questo non è l'ideale per i dischi rigidi. Ciò aumenta il carico di lavoro sulla CPU e si sa che i soft RAID hanno errori e uccidono prematuramente i dischi rigidi. È probabile che il soft RAID abbia ucciso queste unità sopra ogni altra cosa.

Prevenzione per build future: se stai leggendo questo e vedi questo vecchio scenario utente tramite la domanda di Google o cosa no:

-assicurarsi che i dischi siano montati correttamente in uno chassis del disco rigido stabile. Avvitare i dischi con almeno 4 viti del disco rigido o utilizzare una slitta speciale per il disco fornita con il telaio.

-Assicurati di avere un flusso d'aria adeguato nel tuo caso, i dischi rigidi in un RAID tendono ad avere più I / O sul disco e saranno molto più caldi che se il volume fisico è montato individualmente.

-Non utilizzare un alimentatore economico. Il potere sporco è un assassino di costose parti di computer. Accertarsi inoltre che l'alimentatore fornisca potenza sufficiente per gestire il carico di lavoro desiderato.

-Usa una scheda controller RAID! Non usare mai il soft RAID sulla scheda madre. I Soft RAID riducono le prestazioni del disco e aumentano le possibilità di guasti del disco più di quelle di una scheda controller RAID.

-RAID in generale aumenta le possibilità di guasto del disco a causa dell'aumentato I / O su tutti i volumi. Maggiore è il pool di dischi da unire, maggiore è la possibilità di unità guaste. Se si esegue il RAID delle unità, utilizzare sempre unità di parità e hot spare. È possibile perdere i dati se si utilizzano dischi RAID 0 2-3. Se hai 3 dischi, usa RAID 5! 6 dischi su RAID 5 (4 + 1) con hot spare sono l'ideale se le unità sono coperte da garanzia. Se non puoi permetterti più dischi o i tuoi dischi sono fuori garanzia, non utilizzare RAID.

-Le unità desktop non sono unità Enterprise. Le unità desktop sono simili alle unità Enterprise, ma non sono progettate per gestire enormi carichi di lavoro causati dai controller RAID. Se acquisti unità desktop da newegg e le RAID sulla nostra scheda madre, è probabile che si verifichi almeno un guasto dell'unità nel primo anno. Più a lungo si utilizza la macchina su un RAID, più I / O viene scritto su disco e maggiore è la probabilità che il volume abbia errori. Combina unità economiche con RAID morbido della scheda madre economica e ti farà male.

È probabile che questo utente abbia riscontrato tutti questi fattori nel suo server di scatole da scarpe. Potenza economica, cattivo flusso d'aria, vecchie unità economiche non correttamente montate in uno chassis e un RAID morbido della scheda madre ... tutto ciò aumenta le possibilità di un errore del disco.


4

Non riesco a immaginare come hai una buona ventilazione e raffreddamento in una scatola da scarpe? Dovresti davvero sborsare i 50 o 60 dollari per un vero case del computer?

Le prese multiple proteggono solo da picchi di corrente; problemi comuni per le apparecchiature elettroniche sono sotto tensione (brown out) e sovratensione (spiking). Inoltre è comune il rumore EMI: qualche tempo fa avevamo un computer instabile che si rivelò essere causato dall'avere un tapis roulant sullo stesso circuito (l'ho verificato personalmente oltre ogni dubbio). Avrebbe spento il modem offline, causando il blocco periodico del sistema.

Inoltre, la continua esposizione al rumore e alle fluttuazioni dell'alimentazione con il danneggiamento dell'alimentatore, col tempo, diminuisce la qualità della potenza erogata all'elettronica.

EDIT: le fluttuazioni di energia elettrica possono essere isolate su circuiti specifici. Ancora più importante, apparecchi di alto consumo come microonde, frigoriferi, tapis roulant, stufe e simili possono avere un impatto significativo sulla qualità dell'energia su quel circuito. E cose come i frigoriferi hanno anche un continuo ciclo di accensione / spegnimento che a sua volta diventa marrone e aumenta la potenza della linea quando il motore entra e esce.

Inoltre, se vieni servito dalla stessa compagnia elettrica, potrebbero avere problemi continui a fornire tensione su tutta la linea. Fluttuare costantemente tra 105 V e 125 V avrà un effetto negativo sull'elettronica (a quanto ho capito).


La scatola non è coperta e gli HDD hanno dei dispositivi di raffreddamento. Una buona ventilazione potrebbe non essere il termine corretto qui, ma sicuramente non si sta surriscaldando, ho controllato le temperature con smartmontools. Ma se il problema riguarda l'elettricità, gli altri computer della casa non causerebbero alcuni sintomi? Inoltre sto aggiungendo alla domanda ora, che mi sono trasferito in un nuovo posto tra i 4 mesi, quindi è improbabile che ci siano problemi di elettricità in entrambi i luoghi.
K. Norbert,

Dopo esserti spostato, potresti avere ancora lo stesso dispositivo sullo stesso circuito del tuo computer; anche il tuo alimentatore potrebbe essere già stato sparato, quindi il danno potrebbe essere già stato fatto. Penso che inizierei con l'ottenimento di un UPS con filtro di alimentazione economico (circa $ 100) e quindi la sostituzione immediata dell'alimentatore (circa $ 60) sul computer.
Lawrence Dol,

2

Sembra davvero un problema di alimentazione.

Se hai picchi di corrente, molte ciabatte economiche funzionano solo una volta - e di solito non vi è alcuna indicazione che non proteggano più.

Un buon UPS potrebbe aiutare: alcuni di quelli di fascia più alta in realtà generano energia dalle batterie e si ricaricano continuamente, fornendo energia completamente isolata. L'unico inconveniente è che possono essere rumorosi.


Non potrebbe essere un problema dall'outlet che sta "riponendo"? Tenderei prima a provarlo da qualche parte in casa, al riparo dai volt guzzler e dai fili spelati.
mtone,

In realtà ho preso un UPS di condizionamento di potenza da Costco per 100 dollari; la batteria non è grande, fornendo solo abbastanza per mantenere il mio modem internet e la mia cabina telefonica funzionanti, ma l'ho comprato principalmente per condizionare l'alimentazione del mio computer.
Lawrence Dol,

La scatola è praticamente sotto uno scaffale, non è coperta e non è vicino ad altri apparecchi elettrici. (a parte una ps2 che non è nemmeno collegata a atm). Se è l'elettricità, non causerebbe problemi anche negli altri PC?
K. Norbert,

Potrei essere il potere che entra nell'edificio, potrebbe essere qualcos'altro in casa - la vicinanza a un apparecchio malfunzionante non è necessaria per influire sul potere. È possibile che l'alimentazione sia marginale, quindi è più influenzata dalle interferenze rispetto agli altri computer
chris

2

In realtà i produttori di HDD non stampano le informazioni relative alle posizioni di lavoro sui loro dischi, ma stare in piedi sui dischi rigidi ai loro lati è perfettamente ok. L'ultima volta che ho controllato tali informazioni, le unità potevano essere posizionate in posizione orizzontale o sui lati e fino a un angolo di 5 o 10 gradi da queste posizioni. Posarli capovolti o i connettori rivolti verso l'alto o verso il basso non sono posizioni legali. I connettori rivolti verso l'alto o verso il basso erano la posizione migliore per il trasporto circa 15 anni fa. Queste sono le ultime informazioni che ho su questo.

Sto riscontrando lo stesso tipo di errore su un disco rigido verde WD da 500 GB nuovo di zecca e i tuoi cavi SATA sembrano proprio i miei e li sospetto male.

Il problema di messa a terra non è propriamente negativo, i componenti devono essere messi a terra mediante il corretto montaggio su una custodia metallica, ma non farlo non dovrebbe essere un problema se tutti i connettori e i cavi sono al 100% ok.

Ovviamente un cattivo alimentatore può fare molte cose cattive all'intero sistema, testerei con un nuovo alimentatore al più presto, preferibilmente con tutto montato su un telaio decente.

In bocca al lupo


1

Sono d'accordo sul fatto che il cattivo colpevole sia il cattivo terreno. Tuttavia, considerare il surriscaldamento come una possibile causa. Se le unità sono calde al tocco, sono troppo calde. Metti un fan su di loro.


Ci sono fan sui dischi.
K. Norbert,

1

È possibile verificare se sono stati surriscaldati osservando i valori SMART. La messa a terra del case non è necessaria in quanto molti supporti hot swap sono in plastica e non collegati a terra. La messa a terra tramite il cavo SATA dovrebbe essere sufficiente. Il fatto che siano montati saldamente può aiutare con problemi di vibrazione. La testa non tocca il piatto, ma si sposta leggermente sopra e l'impatto sul piatto può causare la distruzione di minuscole particelle che alla fine possono provocare crolli della testa.



0

Potrebbero esserci grandi altoparlanti, frigoriferi, condizionatori d'aria, motori elettrici o altre fonti magnetiche accanto alla tua scatola da scarpe (completamente non schermata)?


Sfortunatamente no, niente.
K. Norbert,

0

Concordo sul fatto che un cattivo terreno potrebbe essere la causa della tragedia della memoria. Tuttavia, vorrei anche "riparare" le unità a disco rigido in modo più stretto, perché le vibrazioni possono causare danni permanenti.


0

Controllare gli interruttori di potenza che dividono l'alimentazione per le ventole dell'unità. Un connettore intermittente può causare la perdita di energia dell'unità in un momento critico e un arresto anomalo. Sicuramente è necessario un caso per terreno solido tra MB, PSU e HD.


-3

penso che stare in piedi sui dischi rigidi dai loro lati potrebbe aver contribuito al loro malfunzionamento perché, nella maggior parte dei casi, i dischi rigidi sono montati distesi nelle loro custodie per computer.


2
Questa non è la causa. I dischi rigidi non si preoccupano davvero del loro orientamento.
Dan D.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.