Come devo masterizzare su hard disk?

41

Google ha condotto uno studio molto approfondito sui guasti del disco rigido che ha rilevato che una parte significativa dei dischi rigidi si guasta entro i primi 3 mesi di utilizzo intenso.

I miei colleghi e io stiamo pensando che potremmo implementare un processo di burn-in per tutti i nostri nuovi dischi rigidi che potrebbe potenzialmente farci risparmiare un po 'di angoscia dalla perdita di tempo su unità nuove e non testate. Ma prima di implementare un processo di burn-in, vorremmo ottenere alcune informazioni dagli altri che hanno più esperienza:

Quanto è importante masterizzare su un disco rigido prima di iniziare a usarlo?
Come si implementa un processo di burn-in?
- Quanto tempo bruci su un disco rigido?
- Quale software usi per masterizzare nelle unità?
Quanto stress è troppo per un processo di burn-in?

EDIT: a causa della natura del business, i RAID sono impossibili da usare per la maggior parte del tempo. Dobbiamo fare affidamento su singole unità che vengono inviate abbastanza frequentemente in tutta la nazione. Effettuiamo il backup delle unità non appena possibile, ma riscontriamo ancora degli errori qua e là prima di avere l'opportunità di eseguire il backup dei dati.

AGGIORNARE

La mia azienda ha implementato un processo di burn-in per un po 'di tempo, e si è dimostrato estremamente utile. Bruciamo immediatamente tutte le nuove unità che abbiamo in stock, permettendoci di trovare molti errori prima della scadenza della garanzia e prima di installarli in nuovi sistemi informatici. Si è anche rivelato utile verificare che un'unità sia andata male. Quando uno dei nostri computer inizia a riscontrare errori e un disco rigido è il principale sospettato, eseguiremo nuovamente il processo di burn-in su quell'unità e esamineremo eventuali errori per assicurarci che l'unità sia effettivamente il problema prima di avviare il processo RMA o lanciare nella spazzatura.

Il nostro processo di burn-in è semplice. Abbiamo un sistema Ubuntu designato con molte porte SATA e eseguiamo badblock in modalità lettura / scrittura con 4 passaggi su ogni unità. Per semplificare le cose, abbiamo scritto uno script che stampa un avviso "I DATI SARANNO ELIMINATI DA TUTTE LE VOSTRE UNITÀ" e quindi esegue blocchi errati su ogni unità tranne l'unità di sistema.

hard-drive drive-failure

— Phil
fonte

15

Curiosamente, perché spedite le unità in tutto il paese? Sembra che tu abbia maggiori probabilità di incorrere in un guasto dell'unità a causa di un guasto da shock e di una cattiva gestione generale da parte del servizio postale che per motivi che potrebbero essere rilevati da un burn-in.

— Paperjam,

6

@Lie Ryan: l'hardware di archiviazione postale è ancora il modo più veloce per trasferire i dati. Internet è molto lento e, se è necessario passare attraverso reti istituzionali e firewall, peggiora ancora di più.

— Jonas,

4

@Lie Ryan: se hai a che fare con dati segreti classificati dal governo, SSH non lo farà . In generale, un computer contenente tali dati potrebbe non essere collegato a Internet pubblico. Se hai gigabyte di dati classificati da trasferire, l'invio di un'unità crittografata è l'opzione più efficiente.

— benzado,

3

@Lie Ryan: Esattamente. Anche con una connessione Internet molto veloce, ti ci vuole un mese per consegnare 7 TB (e questo è se hai il lusso di avere il controllo sul throughput del tuo e del destinatario). Con UPS, i 7 TB sono lì il giorno successivo.

— Jonas,

5

È bello e tutto, tranne quando hai dei team mobili in viaggio che raccolgono enormi quantità di dati. Ciò significa che devi fare affidamento su hotel o connessioni Internet mobili e non rimani mai in un posto per più di 8 ore.

— Phil,

36

Quanto è importante masterizzare su un disco rigido prima di iniziare a usarlo?

Se hai un buon backup e buoni sistemi ad alta disponibilità, non molto. Dal momento che il ripristino da un errore dovrebbe essere abbastanza facile.

Come si implementa un processo di burn-in? Quale software usi per masterizzare nelle unità? Quanto stress è troppo per un processo di burn-in?

Io di solito eseguito badblocks contro un'unità o nuovo sistema, quando ho capito. Lo eseguirò ogni volta che resusciterò un computer dalla pila dei pezzi di ricambio. Un comando come questo ( badblocks -c 2048 -sw /dev/sde) scriverà effettivamente su ogni blocco 4 volte ogni volta con uno schema diverso (0xaa, 0x55, 0xff, 0x00). Questo test non fa nulla per testare molte letture / scritture casuali, ma dovrebbe dimostrare che anche ogni blocco può essere scritto e letto.

Puoi anche eseguire Bonnie ++ , o iometer, che sono strumenti di benchmarking. Questi dovrebbero provare a stressare un po 'le tue unità. Le unità non dovrebbero fallire anche se si tenta di massimizzarle. Quindi potresti anche provare a vedere cosa possono fare. Non lo faccio però. Ottenere un benchmark I / O del proprio sistema di storage proprio al momento dell'installazione / configurazione potrebbe essere molto utile in futuro quando si esaminano i problemi di prestazioni.

Quanto tempo bruci su un disco rigido?

Secondo me è sufficiente una sola serie di badblock, ma credo di avere un sistema di backup molto potente e che le mie esigenze di HA non siano così elevate. Posso permettermi dei tempi di inattività per ripristinare il servizio sulla maggior parte dei sistemi che supporto. Se sei così preoccupato, che pensi che potrebbe essere necessaria una configurazione multi-pass, allora probabilmente dovresti avere RAID, buoni backup e una buona configurazione HA.

Se ho fretta, potrei saltare un burn-in. I miei backup e RAID dovrebbero andare bene.

— Zoredache
fonte

49

IMNSHO, non dovresti fare affidamento su un processo di burn-in per eliminare le unità difettose e "proteggere" i tuoi dati. Lo sviluppo e l'implementazione di questa procedura richiederà tempo che potrebbe essere meglio utilizzato altrove e anche se un'unità passa il burn-in, potrebbe comunque guastarsi mesi dopo.

Dovresti utilizzare RAID e backup per proteggere i tuoi dati. Una volta che è a posto, lascia che si preoccupi per le unità. I buoni controller RAID e i sottosistemi di archiviazione avranno processi di 'pulizia' che vanno di tanto in tanto sui dati e garantiscono che tutto sia a posto.

Una volta che tutto è stato risolto, non è necessario eseguire la pulizia del disco, anche se come altri hanno già detto, non fa male eseguire un test di caricamento del sistema per assicurarsi che tutto funzioni come previsto. Non mi preoccuperei affatto dei singoli dischi.

Come è stato menzionato nei commenti, non ha molto senso usare i dischi rigidi per il tuo caso d'uso particolare. La loro spedizione è molto più probabile che provochi errori di dati che non saranno presenti quando hai eseguito il burn-in.

I supporti a nastro sono progettati per essere spediti in giro. È possibile ottenere 250 Mbps (o compressi fino a 650 Mbps) con un singolo disco IBM TS1140 che dovrebbe essere più veloce del disco rigido. E anche più grande: una singola cartuccia può fornire fino a 4 TB (non compresso).

Se non si desidera utilizzare il nastro, utilizzare SSD. Possono essere trattati in modo molto più ruvido rispetto agli HDD e soddisfare tutti i requisiti che hai fornito finora.

Dopo tutto ciò, ecco le mie risposte alle tue domande:

Quanto è importante masterizzare su un disco rigido prima di iniziare a usarlo?
Affatto.
Come si implementa un processo di burn-in?
- Quanto tempo bruci su un disco rigido?
  Una o due corse.
- Quale software usi per masterizzare nelle unità?
  Una semplice corsa di, diciamo, shrede badblockslo farà. Controllare successivamente i dati SMART.
Quanto stress è troppo per un processo di burn-in?
Nessuno stress è troppo. Dovresti essere in grado di lanciare qualsiasi cosa su un disco senza farlo esplodere.

— MikeyB
fonte

1

Il mio unico rimpianto per questo post è che posso votarlo solo una volta. @Phil, stai reinventando la ruota lì. Il modo per assicurarsi di non perdere i dati a causa di guasti all'unità casuale (o altro hardware correlato) sono i backup e gli array RAID.

— Rob Moir,

8

Sono d'accordo che non dovresti fare affidamento su di esso, ma l'esecuzione di una scansione su un sistema prima che venga messo in produzione ha identificato un potenziale problema per me un paio di volte. Se non hai fretta, lasciare che un computer si scansiona da solo per un giorno o due di solito non fa male a niente.

— Zoredache,

7

Questa risposta ha il punteggio più alto, ma non è riuscita a rispondere più alla domanda. L'OP ha dichiarato che i RAID sono impossibili. Se "le singole unità vengono spedite in tutta la nazione", non è possibile creare un raid. È in atto un processo di backup, ma sembra che l'OP voglia trovare qualsiasi cosa per risparmiare tempo nel caso in cui un'unità si guasti. (Nota: lavoro presso la stessa azienda dell'OP, quindi conosco la situazione, i dati vengono copiati su un RAID una volta consegnati) Se dovessi masterizzare su drive, ipoteticamente, come faresti?

— Jsmith,

3

In tal caso, la domanda dovrebbe fornire questo contesto. Da quello che stai dicendo, la domanda dovrebbe essere "Dobbiamo inviare i dischi rigidi via posta ordinaria / merci. Come dovremmo fare un test di burn-in prima di spedirli per ridurre al minimo i guasti?" Stranamente, la risposta non cambia. Invia un paio di unità! O meglio, usa i nastri. I nastri sono progettati per essere utilizzati in questo modo, mentre i dischi rigidi no. Ulteriori informazioni portano a una risposta diversa.

— MikeyB,

2

I nastri non possono scrivere dati velocemente come i dischi rigidi? 250 Mbps (non compresso) non è abbastanza buono per te? Direi che un processo di burn-in non aiuterà effettivamente a proteggere da guasti con il tuo caso d'uso.

— MikeyB,

8

Dato il tuo chiarimento, non sembra che nessun processo di burn-in possa esserti utile. Gli azionamenti falliscono principalmente a causa di fattori meccanici, solitamente calore e vibrazioni; non per nessun tipo di bomba a orologeria nascosta. Un processo "burn-in" verifica l'ambiente di installazione tanto quanto qualsiasi altra cosa. Una volta spostato l'oggetto, sei tornato al punto di partenza.

Ma ecco alcuni suggerimenti che potrebbero aiutarti:

Le unità laptop sono generalmente progettate per resistere a vibrazioni e vibrazioni maggiori rispetto alle unità desktop. I miei amici che lavorano nei negozi di recupero dati spediscono sempre i dati ai clienti su unità laptop per questo motivo. Non ho mai provato questo fatto, ma sembra essere "conoscenza comune" in determinati settori.

Le unità flash (ad es. Le chiavette USB) sono le più resistenti agli urti di qualsiasi supporto che troverai. Dovrebbe essere anche meno probabile che perderai i dati in transito se usi i supporti flash.

Se spedisci un'unità Winchester, esegui una scansione di superficie prima di metterla in uso. O meglio ancora, non metterlo in uso. Invece, potresti voler designare determinate unità come unità "di spedizione", che vedono tutto l'abuso, ma su cui non fai affidamento per l'integrità dei dati. (Vale a dire: copia i dati sull'unità per la spedizione, copia dopo la spedizione, molto checksum su entrambi i lati, quel genere di cose).

— tylerl
fonte

"Una volta spostato l'oggetto, sei tornato da dove hai iniziato." - non vero. ecco come appare un grafico MTTF per un disco: cs.cmu.edu/~bianca/fast/img13.png cs.ucla.edu/classes/spring09/cs111/scribe/16/… nei primi periodi può filtrare molte unità problematiche, i produttori eseguono effettivamente questi stress test per rendere il prodotto più affidabile, ma ovviamente non è economico fare il test fino a quando il grafico non si appiattisce.

— Karoly Horvath,

3

@yi_H: Penso che Tylerl stia insinuando che probabilmente la causa di un guasto precoce è dovuta al processo di spedizione stesso (che non è plausibile, mi piacerebbe vedere un grafico che traccia il guasto dell'unità rispetto alla frequenza di invio), quindi se spedisci hard disk in tutto il paese, quindi l'MTTF verrà ripristinato; quindi se spedisci un disco ogni tre mesi, sei sempre nella zona degli errori iniziali.

— Lie Ryan,

5

Il tuo processo è sbagliato. Dovresti usare le matrici raid. Dove lavoro, abbiamo realizzato array di raid rinforzati progettati per essere trasportati in giro. Non è scienza missilistica. Il montaggio a shock degli azionamenti in custodie di grandi dimensioni con grandi isolatori di vibrazioni in gomma migliorerà enormemente l'affidabilità. (Le unità di costellazione Seagate, ad esempio, sono classificate per shock da 300 G ma solo vibrazioni da 2 G, non operative: pertanto la custodia di spedizione deve isolare le vibrazioni dall'unità. Http://www.novibes.com/Products&productID=62 o http : //www.novibes.com/Products&productId=49 [parte # 50178])

Tuttavia, vuoi davvero masterizzare nei dischi rigidi di prova, quindi ecco qui.

Ho lavorato su sistemi come dischi rigidi e masterizzazione trovato alcuni problemi ma ...

Per i test accelerati del ciclo di vita dei PCB per evidenziare guasti, nulla batte alcuni cicli caldo / freddo. (il funzionamento dei cicli caldo-freddo funziona ancora meglio ... ma è più difficile per te, soprattutto con i banchi di HDD)

Procuratevi una grande camera ambientale per il numero di unità che acquisite alla volta. (Questi sono piuttosto costosi, sarebbe più economico spedire array di raid in giro) Non puoi lesinare sulle camere di prova, avrai bisogno del controllo dell'umidità e delle rampe programmabili.

Programmare in due rampe di temperatura ripetute, fino alla minima temperatura di conservazione, fino alla massima temperatura di conservazione, rendere le rampe abbastanza ripide da turbare il tecnico dell'applicazione dal produttore del disco rigido. 3 cicli di riscaldamento a caldo in 12 ore dovrebbero vedere i dischi che si guastano abbastanza rapidamente. Esegui le unità per almeno 12 ore in questo modo. Se qualche lavoro dopo sarò sorpreso.

Non ci ho pensato: un posto in cui ho lavorato è stato fatto da un ingegnere di produzione, per spedire più prodotti con la stessa apparecchiatura di prova, c'è stato un enorme aumento dei guasti nei test, ma il tasso di morti all'arrivo è sceso praticamente zero.

— Tim Williscroft
fonte

5

Non sono d'accordo con tutte le risposte che sostanzialmente dicono "Non preoccuparti del burn-in, fai buoni backup".

Mentre dovresti sempre avere i backup, ieri ho trascorso 9 ore (oltre al mio solito turno di 10 ore) ripristinando dai backup perché il sistema era in esecuzione con unità che non erano state masterizzate.

C'erano 6 unità in una configurazione RAIDZ2 (equivalente a ZFS di RAID-6) e 3 unità sono morte nel corso di 18 ore su una scatola in esecuzione da circa 45 giorni.

La migliore soluzione che ho trovato è quella di acquistare unità da un determinato produttore (non combinare), quindi eseguire lo strumento fornito per l'esercizio delle unità.

Nel nostro caso acquistiamo Western Digital e utilizziamo la diagnostica dell'unità basata su DOS da un ISO avviabile. Lo accendiamo, eseguiamo l'opzione per scrivere spazzatura casuale sull'intero disco, quindi eseguiamo il breve test SMART seguito dal lungo test SMART. Di solito è abbastanza per eliminare tutti i settori danneggiati, leggere / scrivere riallocazioni, ecc ...

Sto ancora cercando di trovare un modo decente per 'batch' in modo da poterlo eseguire su 8 unità alla volta. Potrebbe semplicemente usare 'dd if = / dev / urandom di = / dev / qualunque' in Linux o 'badblocks'.

EDIT: ho trovato un modo migliore per "raggrupparlo". Alla fine sono riuscito a configurare un server di avvio PXE sulla nostra rete per rispondere a un'esigenza particolare e ho notato che il CD di avvio Ultimate può essere avviato PXE. Ora abbiamo una manciata di macchine spazzatura in giro che possono essere avviate PXE per eseguire la diagnostica dell'unità.

— Aaron C. de Bruyn
fonte

3

Cosa sai? Una risposta che risponde alla domanda e non predica all'OP. +1

— elBradford,

3

Se si desidera scrivere dati casuali sull'unità, non leggere da / dev / urandom; non è lento come il suo cugino bloccante / dev / random, ma è ancora lento e non ti guadagna davvero nulla. Invece, imposta una semplice mappatura dm-crypt con una chiave casuale (che puoi ottenere da / dev / urandom o / dev / random) e poi semplicemente dd / dev / zero nel dispositivo mappato. Probabilmente sarà tra il doppio più veloce e un ordine di grandezza più veloce. gitlab.com/cryptsetup/cryptsetup/wikis/FrequentlyAskedQuestions "Come posso cancellare un dispositivo con casualità criptata?" ha un esempio di come farlo.

— un CVn

Ottimo suggerimento @ MichaelKjörling

— Aaron C. de Bruyn,

3

Quanto è importante masterizzare su un disco rigido prima di iniziare a usarlo?

Dipende.
Se lo stai usando in un RAID che fornisce ridondanza (1, 5, 6, 10)? Non molto.
Se lo stai usando standaolone? Un po ', ma stai meglio semplicemente eseguendo smartd o qualcosa per monitorarlo invece, almeno secondo me.

Questo porta naturalmente alla mia risposta a " Come si implementa un processo di burn-in? " - Non lo faccio.
Invece di provare a "masterizzare" i dischi li eseguo in coppie ridondanti e utilizzo il monitoraggio predittivo (come SMART) per dirmi quando un'unità diventa instabile. Ho scoperto che il tempo extra necessario per eseguire un burn-in completo (esercitando davvero l'intero disco) è sostanzialmente più costoso rispetto a quando si verifica un errore del disco e lo scambio.
Combinando RAID e buoni backup i tuoi dati dovrebbero essere molto sicuri, anche quando hai a che fare con la mortalità infantile (o l'altra estremità della cura della vasca quando inizi a far morire le unità della vecchiaia)

— voretaq7
fonte

1

Cosa succede se l'unità non può essere monitorata perché non si trova in una posizione costante? :)

— jsmith,

2

@jsmith - allora lo avete inviare notifiche invece di polling da una miriade di monitoraggio - non ci sono quasi le situazioni in cui si ha sinceramente non si può monitorare qualcosa, ci sono quelli che richiedono solo un po 'di pensiero creativo :)

— voretaq7

2

Spinrite (grc.com) leggerà e riscriverà tutti i dati sul disco. È una buona cosa fare per un nuovo disco anche se non stai cercando di farlo fallire. Il funzionamento a livello 4 richiede molto tempo, in genere un paio di giorni per le unità di dimensioni attuali. Dovrei anche aggiungere che non è distruttivo. Infatti se ha dei dati in cattive posizioni, si sposterà e li recupererà. Ovviamente non lo avresti mai eseguito su un SSD.

— Charlie
fonte

1

Sono sicuro che un benchmarking una volta alla settimana e il controllo degli errori saranno sufficienti per "masterizzare" sui dischi rigidi. Anche se dal tuo post non ho mai sentito parlare di una cosa del genere.

Citato da "6_6_6" su Stroagereview.com

1. Connect the drive to a running system. Read SMART values.

2. Do a SMART short self test. Do a SMART long self-test.

3. Zero fill / Wipe the drive with the manufacturer's utility. Entire drive.

4. Run HDTach full read/write. Everest / Sandra, etc all have stress tests. Run hard drive part continously for hours.

5. Run Victoria for Windows Read/Write test and make sure no slow sectors.

6. Drop to DOS. Run MHDD, run a LBA test and see check for slow sectors. Run Read/Write/Verify test. Run drive internal ATA secure erase command.

7. Do a full format.

8. Compare SMART values. If no anomalies, all good to go. Install your OS and continue.

In tutto, penso personalmente che sia una cattiva idea.

EDIT: Scource: http://forums.storagereview.com/index.php/topic/27398-new-hdd-burn-in-routines/

— U4iK_HaZe
fonte

0

Innanzitutto, sono d'accordo con altri poster che il tuo caso d'uso suggerisce che le unità a nastro saranno l'opzione migliore.

Se ciò non è possibile, se devi far volare le unità in tutta la nazione, un vero RAID non sembra essere un'opzione, poiché dovrai trasportare molte più unità, aumentando il rischio di guasti. Tuttavia, che dire di un semplice schema di mirroring, che invia un'unità e mantiene l'altra sul sito di origine?

Quindi, se l'unità si guasta all'arrivo, è possibile creare e inviare una nuova copia. Se l'unità è in buono stato all'arrivo, è possibile riutilizzare la scorta, sia per l'invio che per il backup dei dati originali.

0

Non hai davvero detto perché le unità vengono spedite - è solo un modo per inviare dati, hanno immagini complete di applicazioni / sistema operativo pronte per essere avviate su un PC o qualcos'altro?

Concordo con le altre risposte che RAID o backup sono migliori della scansione, a causa dei rischi di spedizione di un'unità che causano problemi meccanici.

Un modo più generale per dirlo sarebbe "fare affidamento su dati ridondanti per rilevare e correggere errori": spedire 2 unità per ogni set di dati o spedire dati ridondanti su una singola unità. Qualcosa come Parchive consente di aggiungere un livello definito di ridondanza ai dati, consentendo il recupero anche se gran parte dei dati è danneggiata. Dal momento che i dischi sono abbastanza economici in questi giorni, acquistare un disco più grande di quanto strettamente necessario sarà spesso più economico della scansione dell'unità, della spedizione di un'unità sostitutiva o della spedizione di 2 unità.

Ciò proteggerebbe da guasti non catastrofici dell'unità, tuttavia è comunque meglio non riutilizzare un'unità spedita ad eccezione della spedizione, come suggerito in precedenza, ovvero visualizzarla come un nastro che deve essere estratto in un'unità "reale" che è permanentemente installato e non spedito ovunque.

Ciò dovrebbe consentire di inviare una grande quantità di dati (o persino immagini dell'applicazione / del sistema operativo) e ridurre l'impatto degli errori del disco a qualunque livello sia economico.

— RichVel
fonte