Il mio disco rigido non funziona?


42

Ho appena provato a eseguire un test sul mio hdd e non vuole completare un test automatico. Ecco il risultato:

smartctl --attributes --log=selftest /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-32-generic] (local build)

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       697
  3 Spin_Up_Time            0x0027   206   160   021    Pre-fail  Always       -       691
  4 Start_Stop_Count        0x0032   074   074   000    Old_age   Always       -       26734
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       28
  9 Power_On_Hours          0x0032   090   090   000    Old_age   Always       -       7432
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   097   097   000    Old_age   Always       -       3186
191 G-Sense_Error_Rate      0x0032   001   001   000    Old_age   Always       -       20473
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       84
193 Load_Cycle_Count        0x0032   051   051   000    Old_age   Always       -       447630
194 Temperature_Celsius     0x0022   113   099   000    Old_age   Always       -       34
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       16
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed: read failure       90%      7432         92290592
# 2  Conveyance offline  Completed: read failure       90%      7432         92290596
# 3  Conveyance offline  Completed: read failure       90%      7432         92290592
# 4  Short offline       Completed: read failure       90%      7431         92290596
# 5  Extended offline    Completed: read failure       90%      7431         92290592

Quindi questo disco non funziona?


Quando uso lo strumento grafico, si dice che l'autotest ha avuto esito negativo
Michel,

3
I read failuremessaggi ripetuti di solito indicano un disco guasto, quindi sì ...
HBruijn

23
Michel, benvenuto a San Francisco, e grazie per una buona prima domanda. Come puoi vedere se decidi di rimanere da queste parti (cosa che spero tu voglia), una buona prima domanda è una cosa rara e preziosa. Avevi un'ipotesi appropriata per il sito ( "il mio HDD non funziona "), hai trovato lo strumento pertinente e imparato a usarlo, ma avevi bisogno di aiuto per interpretare i risultati. Quindi sei venuto qui, ci hai fornito tutte le informazioni pertinenti, nessuna immondizia in eccesso e hai posto una domanda che era un modello di concisione. Grazie - per favore, state in giro!
MadHatter supporta Monica il

3
+1: eccellente prima domanda. Per sfruttare al meglio Server Fault, registra il tuo account e controlla alcuni degli altri siti sulla rete Stack Exchange . Speriamo di vederti contribuire con contenuti di alta qualità a Stack Exchange.
bwDraco,

Risposte:


43

Il tuo disco è molto felice di fare un autotest; dal riassunto, ne ha fatte più di cinque nell'ultima ora. E tutti hanno fallito, all'inizio del test, con errori di lettura.

Sì, questo disco rigido non funziona. Come diceva il famoso rapporto di Google Labs (anche se al momento non posso mettere una mano su di esso), se smartctldice che il tuo disco non funziona, probabilmente lo è (parafrasando).

Modifica : non provare a salvarlo. Rimuovi tutti i dati e sostituiscili.


9
Se sta fallendo, sta fallendo. Ripararlo può essere tecnicamente possibile, ma è estremamente improbabile che sia conveniente rispetto al costo di una nuova unità.
Sobrique,

7
@Michel L'assenza di un errore di auto-test non è la prova che un'unità non si guasta, purtroppo, ma la presenza di un errore di auto-test deve sempre essere considerata la prova che sta fallendo.
Rob Moir,

1
@Michel: potresti provare a sostituire i cavi. A volte un'unità non può guastarsi non a causa di problemi nell'unità, ma a causa di cavi di alimentazione o dati difettosi.
Thomas Padron-McCarthy,

1
@JorgeNerín: penso che tu abbia fatto un punto eccellente, ma la prova è che sia io che l'OP lo capiamo già - l'OP deve, perché ha iniziato almeno cinque di loro nelle ultime due ore. Per quanto riguarda i test, sono d'accordo con te sul fatto che un test lungo sarebbe un indicatore migliore che l'unità è in buone condizioni, ma quando fallisce sia i test brevi che quelli di trasporto nel primo 10% dell'unità, penso che possiamo ragionevolmente concludere che l'unità è tiro. Cosa speri venga rivelato da test più approfonditi?
MadHatter supporta Monica il

2
@ JorgeNerín <grin> ha senso! Ho parlato solo perché l'OP è iniziato antropomorfizzando il suo disco: " Ho appena provato a eseguire un test sul mio hdd e non vuole completare un autotest ". Non penso che nessuno di noi pensi che l'unità sia viva, né che pianifichi autotest da solo!
MadHatter supporta Monica il

10

Per rispondere alla tua domanda, un test SMART non riuscito è un'indicazione infallibile di guasto imminente dell'unità. È necessario eseguire il backup dei dati e sostituire l'unità il prima possibile per evitare la potenziale perdita di dati.

@ sj0h ha menzionato il conteggio del ciclo di carico, che è molto alto a 447.630. (La maggior parte dei dischi rigidi moderni è progettata per resistere a 600.000 cicli di carico / scarico.) Questo è in genere causato dalla funzione Advanced Power Management (APM), che cerca di risparmiare energia parcheggiando le testine (scaricandole dai piatti) dopo alcuni secondi di inattivo. Le teste vengono ricaricate sui piatti quando necessario. Sulla maggior parte dei sistemi, in cui i dischi rigidi diventano intermittenti, attivano e disattivano l'attività, ciò può causare numerosi cicli di carico / scarico. Per disattivare APM, eseguire il comando seguente al prompt di root:

smartctl -s apm,off /dev/sda

Questo comando dovrà essere eseguito ogni volta che il sistema viene spento o spento o l'unità viene spenta altrimenti, poiché questa impostazione non viene mantenuta quando l'unità viene spenta.

Nella mia esperienza, farlo ridurrà drasticamente il numero di cicli di carico / scarico e, di conseguenza, le probabilità che si verifichi nuovamente questo tipo di guasto in futuro. Si noti, tuttavia, che ciò aumenta il consumo di energia e la temperatura dell'unità. Se l'unità funziona costantemente a temperature superiori a 50 ° C, il rischio di guasti prematuri aumenta, quindi è consigliabile lasciare APM acceso (o accenderlo se spento) durante i mesi più caldi.


2

Oltre agli errori di lettura, considerare anche il conteggio del ciclo di carico. A quasi 500.000 ciò può indicare un motivo di guasto, o almeno un'elevata usura del ciclo di carico. Esiste un ciclo di caricamento per ogni minuto di accensione. Dopo aver sostituito l'unità, assicurarsi che anche la nuova unità non lo stia facendo.


Ottima osservazione. Come si può diagnosticare il motivo per cui l'unità gira e esegue il backup ogni minuto?
dotancohen,

@dotancohen, vedi la mia risposta: è colpa di APM.
bwDraco,

2

Sì, hai 16 settori illeggibili, hai provato a fare diversi test che hanno fallito approssimativamente nella stessa area del disco, quindi fai un backup veloce, ma tieni presente che hai dati già inaccessibili che ora persistono nelle vicinanze di settori 92290592, 92290596.

Potresti avere altre aree problematiche, ancora non sai se quei 16 settori sono consecutivi o sparsi, se vuoi giocare dopo il backup puoi fare un auto-test selettivo con -t select, startlba-endlba.

Current_Pending_Sector significa che il firmware del disco rigido ha tentato di leggerlo, ma non può, ci proverà alcune volte di più (ogni volta che il sistema operativo lo richiede) fino a quando non riesce e contrassegnandolo come Offline_Uncorrectable o sostituirà il settore danneggiato con un altro settore di riserva se il Il sistema operativo lo scrive (aumentando in tal modo Reallocated_Sector_Ct mentre lo fa).


1

Sostituirei personalmente l'unità. Se, per qualche motivo, non vuoi ancora farlo, ma indugi con l'unità ancora per un po ', hai bisogno di un modo per assicurarti di non usare accidentalmente le aree danneggiate per i nuovi file.

Avevo un tale disco su un vecchio Mac che stava solo registrando video e ho deciso che non volevo ancora cambiarlo, dato che i video erano semplicemente belli da avere. Quindi avevo bisogno di isolare gli errori. Prima ho creato una cartella vuota solo per i file danneggiati, quindi ho provato a leggere tutti i file esistenti sul disco e tutti quelli con un errore sono stati spostati nella directory dei file danneggiati (si spera solo irrilevante).

Quindi ho creato molti file con un nome univoco per riempire il disco rigido (quindi tutto lo spazio vuoto era ora in uno di questi file da 1 MB) e quindi ho ripetuto la procedura. Tutti i file con errori, sono stati spostati nella directory bad-files-file, e quelli lasciati erano buoni e potevano essere eliminati per recuperare lo spazio danneggiato.

Ora puoi usare l'unità un po 'più a lungo, ma non usarla per cose importanti. Esso sarà guastarsi più e sarà più probabile essere scomodo quando succede.


1

Questo non è un ottimo segno. È necessario assicurarsi che venga eseguito il backup del contenuto del disco e non utilizzare il disco per qualcosa di importante.

Tuttavia, ho visto dischi con settori danneggiati che li hanno riallocati e sono rimasti operativi per anni, quindi è possibile tenerli in giro per un po ', ad esempio per roba non importante o backup aggiuntivi.

Una cosa da fare sarebbe quindi vedere quali file sono stati danneggiati dai settori illeggibili e scrivere in questi settori per forzare la riallocazione da parte del disco (spostandoli da "Current_Pending_Sector" a "Reallocated_Sector_Ct"). Se si utilizza Linux, consultare http://smartmontools.sourceforge.net/badblockhowto.html . Una volta che i settori sono stati riallocati, l'autotest dovrebbe passare o segnalare settori più illeggibili.

Non sono d'accordo con la maggior parte delle risposte in quanto non ritengo che i settori danneggiati siano necessariamente indicativi di un fallimento imminente. Come dice http://blog.mmueh.net/index.php/2010/12/09/luks-meets-badblocks/ , "ogni hard disk inizia a produrre settori danneggiati ad un certo punto della sua vita".


anche se concordo sul fatto che il fallimento non è certo con un settore in cattivo stato, la probabilità che un guidatore fallisca dopo un settore cattivo aumenta in modo significativo (penso che fosse presente anche nel rapporto di Google, ma al momento non riesco a trovare la fonte effettiva)
Dennis Nolte,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.