Ho un piccolo server Ubuntu in esecuzione a casa, con 2 dischi rigidi. Esistono due raid software (raid1) sui dischi, gestiti da mdadm, che ritengo irrilevanti, ma citandoli comunque.
Entrambi i dischi rigidi sono Western Digital e sono stati utilizzati per circa 2 anni, quando uno di loro ha iniziato a emettere rumori di clic e è morto. Ho pensato che forse fosse naturale dopo 2 anni, quindi ne ho comprato uno nuovo e ho risincronizzato gli array dei raid. Dopo circa un mese, anche l'altro disco è morto.
Non sono diventato sospettoso, dal momento che entrambe le unità sono state acquistate contemporaneamente, non è poi così sorprendente vederle entrambe vicine, quindi ne ho comprata un'altra.
Finora, 2 vecchie unità si sono guastate e 2 nuove nel sistema. Dopo un mese, una delle nuove unità è morta. Questo è quando ha iniziato a diventare sospettoso. Da quando il PC è stato messo insieme da alcune parti molto vecchie (pensa AthlonXP), ho pensato che forse il controller SATA della scheda madre è il colpevole. Ovviamente non è possibile cambiare facilmente le parti in un vecchio PC come questo, quindi ho acquistato un intero sistema, nuovi MB, nuova CPU, nuova RAM. Ha preso l'unità appena fallita, poiché era in garanzia e l'ha fatta sostituire.
Quindi sono fino a 2 unità guastate da quelle vecchie e 1 unità guasta da quelle nuove. Nessun problema, per 1 mese. Dopo che gli errori si sono nuovamente insinuati in / var / log / messages, e mdadm ha riportato errori dell'array raid. Ho iniziato a strapparmi i capelli. Tutto è nuovo nel sistema, dipende dal terzo disco rigido nuovo di zecca, semplicemente non è possibile che tutte le nuove unità che ho acquistato fossero difettose.
Vediamo cosa è ancora comune ... i cavi. Ok, a lungo termine, sostituiamo i cavi SATA. Riporta il disco rigido, sorridi al ragazzo al banco e dì che sono davvero sfortunato. Sostituisce il disco rigido. Torno a casa, passa un mese e uno dei dischi rigidi si guasta, di nuovo. Non sto scherzando.
Due dei nuovissimi dischi rigidi si sono guastati. Forse è un bug nel sistema operativo. Vediamo cosa dice lo strumento di test del produttore. Scarica lo strumento di test, masterizzalo su un CD, riavvia, lascia il test del disco rigido durante la notte. Il test dice che l'unità è difettosa e dovrei eseguire il backup di tutto, se ancora posso. Non so cosa stia succedendo, ma non sembra un problema con il software, qualcosa sta sicuramente schiacciando i dischi rigidi.
Vorrei ora menzionare che l'intero sistema è in una scatola da scarpe. Dato che ci sono un sacco di cose "costruisci il tuo caso ikea", ho pensato che non ci dovrebbero essere problemi a gettare la cosa in una scatola e riporla da qualche parte. La scatola è ben ventilata, ma ho pensato che forse le unità si stavano surriscaldando. Non c'è altra risposta possibile a questo. Quindi ho ripreso il disco rigido e l'ho sostituito (per la terza volta) e ho acquistato dispositivi di raffreddamento del disco rigido.
E proprio ora, ho sentito il suono del destino. fai clic fai clic su whizzzzzzzzz . SSH nella scatola:
You have new mail!
mail
r 1
DegradedArrayEvent on /dev/md0 ...
uscita dmesg:
[47128.000051] ata3: lost interrupt (Status 0x50)
[47128.000097] end_request: I/O error, dev sda, sector 58588863
[47128.000134] md: super_written gets error=-5, uptodate=0
[48043.976054] ata3: lost interrupt (Status 0x50)
[48043.976086] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[48043.976132] ata3.00: cmd c8/00:18:bf:40:52/00:00:00:00:00/e1 tag 0 dma 12288 in
[48043.976135] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[48043.976208] ata3.00: status: { DRDY }
[48043.976241] ata3: soft resetting link
[48044.148446] ata3.00: configured for UDMA/133
[48044.148457] ata3.00: device reported invalid CHS sector 0
[48044.148477] ata3: EH complete
Ricapitolare:
- Nessuna possibilità di surriscaldamento
- 6 unità sono guaste, 4 di queste sono nuove di zecca. Non sono sicuro ora che i due originali siano stati difettosi o abbiano subito la stessa cosa di quelli nuovi.
- Non c'è nulla di comune nel sistema, a parte il sistema operativo che ora è Ubuntu Karmic (iniziato con Jaunty). Nuovo MB, nuova CPU, nuova RAM, nuovi cavi SATA.
- No, i piccoli fori sul disco rigido non sono coperti
Sto piangendo. Veramente. Non ho la faccia per tornare al negozio ora, non è possibile che 4 unità si guastino meno di 4 mesi.
Alcune idee a cui ho pensato: è possibile che sbagli qualcosa quando partiziono e risincronizzo le unità? Può essere così male che distrugge fisicamente l'unità? (poiché lo strumento fornito dal fornitore dice che l'unità è danneggiata) Faccio il partizionamento con fdisk e utilizzo la stessa dimensione del blocco per le partizioni raid1 (Controllo le dimensioni esatte del blocco con fdisk -lu)
È possibile che il kernel Linux o mdadm o qualcosa non sia compatibile con questa esatta marca di dischi rigidi e li schiaccia?
È possibile che possa essere la scatola da scarpe? Prova a posizionarlo altrove? Ora è sotto uno scaffale, quindi anche l'umidità non è un problema. È possibile che una normale custodia per PC risolva il mio problema (mi sparerò allora)? Domani avrò una foto.
Sono semplicemente maledetto?
Qualsiasi aiuto o speculazione è molto apprezzato.
Modifica : la ciabatta è protetta contro le sovratensioni.
Edit2 : Mi sono spostato tra questi 4 mesi, quindi la possibilità che la causa sia elettricità "sporca" in entrambi i posti, è molto bassa.
Edit3 : ho verificato le tensioni nel BIOS (non potevo prendere in prestito un multimetro), e sono tutte corrette, la più grande discrepanza è nei 12V, perché fornisce 11.3. Dovrei essere preoccupato per quello?
Edit4 : ho inserito l'alimentatore del mio PC desktop nel server. Il BIOS ha riportato letture della tensione molto più accurate e ha anche ricostruito con successo l'array raid1, che ha richiesto 3-4 ore, quindi ora mi sento un po 'positivo. Domani riceverò un nuovo alimentatore per testarlo. Inoltre, allegando l'immagine sulla scatola: (ignora la terza unità)