Perché produttori diversi hanno valori SMART diversi?


23

Prima di tutto, penso che tutti sappiano che i dischi rigidi si guastano molto più di quanto i produttori vorrebbero ammettere . Google ha condotto uno studio che indica che alcuni dati grezzi attribuiscono che lo stato SMART dei rapporti sui dischi rigidi può avere una forte correlazione con il futuro guasto dell'unità.

Troviamo, ad esempio, che dopo il loro primo errore di scansione, le unità hanno una probabilità 39 volte maggiore di guastarsi entro 60 giorni rispetto alle unità senza tali errori. Anche i primi errori nelle riallocazioni, riallocazioni offline e conteggi probazionali sono fortemente correlati alle maggiori probabilità di fallimento. Nonostante queste forti correlazioni, scopriamo che i modelli di previsione dei guasti basati esclusivamente sui parametri SMART possono essere severamente limitati nella loro precisione di previsione, dato che una grande parte delle nostre unità guaste non ha mostrato alcun segnale di errore SMART.

Seagate sembra stia cercando di oscurare queste informazioni sulle proprie unità sostenendo che solo il loro software può determinare con precisione lo stato accurato della propria unità e dal modo in cui il loro software non ti dirà i valori dei dati grezzi per gli attributi SMART. Western Digital non ha fatto affermazioni del genere per quanto ne so, ma il loro strumento di segnalazione dello stato non sembra riportare valori di dati grezzi.

Ho usato HDtune e smartctl da smartmontools al fine di raccogliere i valori dei dati grezzi per ogni attributo. Ho scoperto che in effetti ... sto confrontando le mele con le arance quando si tratta di determinati attributi. Ho scoperto, ad esempio, che la maggior parte delle unità Seagate segnalerà che hanno molti milioni di errori di lettura, mentre il 99% del digitale occidentale mostra 0 per errori di lettura. Ho anche scoperto che Seagate segnalerà molti milioni di errori di ricerca mentre Western Digital sembra sempre segnalare 0.

D : Come posso normalizzare questi dati? Seagate sta producendo milioni di errori mentre il digitale occidentale non ne produce nessuno? L'articolo di Wikipedia sullo stato SMART afferma che i produttori hanno modi diversi di comunicare questi dati.

Ecco la mia ipotesi:

Penso di aver trovato un modo per normalizzare (è il termine giusto?) I dati.

Le unità Seagate hanno un attributo aggiuntivo che le unità Western Digital non hanno (Hardware ECC ripristinato). Quando si sottrae il conteggio degli errori di lettura dal conteggio recuperato ECC, si finirà probabilmente con 0. Questo sembra essere equivalente al conteggio "Errore di lettura" riportato da Digitali occidentali. Ciò significa che Western Digital segnala solo errori di lettura che non può correggere mentre Seagate conta tutti gli errori di lettura e indica quanti di questi è stato in grado di correggere.

Avevo un'unità Seagate in cui il conteggio degli errori di lettura era inferiore al conteggio ECC recuperato e ho notato che molti dei miei file stavano diventando corrotti. È così che mi è venuta in mente la mia ipotesi. I milioni di errori di ricerca che Seagate produce sono ancora un mistero per me.

Conferma o correggi la mia ipotesi se hai ulteriori informazioni.

Ecco lo stato intelligente della mia unità digitale occidentale solo per poter vedere di cosa sto parlando:

james@ubuntu:~$ sudo smartctl -a /dev/sda
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD1001FALS-00E3A0
Serial Number:    WD-WCATR0258512
Firmware Version: 05.01D05
User Capacity:    1,000,204,886,016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Thu Jun 10 19:52:28 2010 PDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   179   175   021    Pre-fail  Always       -       4033
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       270
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       1468
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       262
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       46
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       223
194 Temperature_Celsius     0x0022   105   102   000    Old_age   Always       -       42
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

Modifica: ecco l'unità Seagate di cui stavo parlando che stava causando il danneggiamento dei dati. Questi dati provengono da HDTune.

HD Tune: ST3250623A Health

ID                               Current  Worst    ThresholdData       Status   
(01) Raw Read Error Rate         45       38       6        77882492   Ok       
(03) Spin Up Time                99       98       0        0          Ok       
(04) Start/Stop Count            100      100      20       640        Ok       
(05) Reallocated Sector Count    100      100      36       0          Ok       
(07) Seek Error Rate             85       60       30       359872048  Ok       
(09) Power On Hours Count        94       94       0        6028       Ok       
(0A) Spin Retry Count            100      100      97       0          Ok       
(0C) Power Cycle Count           100      100      20       689        Ok       
(C2) Temperature                 25       55       0        25         Ok       
(C3) Hardware ECC Recovered      50       47       0        201555081  Ok       
(C5) Current Pending Sector      100      100      0        0          Ok       
(C6) Offline Uncorrectable       100      100      0        0          Ok       
(C7) Ultra DMA CRC Error Count   200      199      0        1          Ok       
(C8) Write Error Rate            100      253      0        0          Ok       
(CA) TA Counter Increased        100      253      0        0          Ok       

Power On Time         : 6028
Health Status         : Ok

A mio avviso, il fatto che l'ECC hardware recuperato sia maggiore del tasso di errore di lettura non elaborato è controintuitivo.

Questo è ciò che ho scoperto essere un'unità "normale" Seagate in cui ECC Recovered corrisponde al tasso di errore di lettura non elaborato:

HD Tune: ST380011A Health

ID                               Current  Worst    ThresholdData       Status   
(01) Raw Read Error Rate         62       46       6        79986164   Ok       
(03) Spin Up Time                98       98       0        0          Ok       
(04) Start/Stop Count            100      100      20       6          Ok       
(05) Reallocated Sector Count    100      100      36       0          Ok       
(07) Seek Error Rate             83       60       30       210309663  Ok       
(09) Power On Hours Count        93       93       0        6516       Ok       
(0A) Spin Retry Count            100      100      97       0          Ok       
(0C) Power Cycle Count           99       99       20       1325       Ok       
(C2) Temperature                 25       52       0        25         Ok       
(C3) Hardware ECC Recovered      62       46       0        79986164   Ok       
(C5) Current Pending Sector      100      100      0        0          Ok       
(C6) Offline Uncorrectable       100      100      0        0          Ok       
(C7) Ultra DMA CRC Error Count   200      188      0        18         Ok       
(C8) Write Error Rate            100      253      0        0          Ok       
(CA) TA Counter Increased        100      253      0        0          Ok       

Power On Time         : 6516
Health Status         : Ok

MODIFICARE:

Voglio chiarire che so che Google generalmente considera inutile SMART. So che tutti dovrebbero eseguire il backup dei propri dati. Mi occupo comunque di riparare i computer degli altri. Molte persone non hanno backup o RAID. Non è conveniente per le aziende risolvere i problemi relativi ai dischi rigidi, quindi li eseguono solo su un RAID fino alla morte. Trovo utile nella mia linea di lavoro controllare lo stato SMART del disco rigido. Ci vogliono circa 30 secondi. Se ho la fortuna che un'unità guasta mostri un suggerimento di errore, come errori di scansione o settori riallocati, so di togliermi di mezzo il disco. Se questo suggerimento non esiste, probabilmente passerò molte ore a risolvere la lentezza e la corruzione dei dati fino a quando finalmente scoprirò che il disco rigido è difettoso.

Sto solo cercando di mettere a punto questo processo.


Nel menu di amministrazione sono disponibili informazioni intelligenti in (credo) la gestione dei dischi. Potrebbe avere abilità aggiuntive rispetto a smartctl, ma non lo uso da un po 'e non ce l'ho di fronte.
Jarvin,

@ Dan Ciao Dan, non sono sicuro di quale strumento Windows stai parlando. Puoi chiarire?
James T,

Il problema con SMART è che è un po 'improprio; non c'è vera intelligenza in essa, solo poche equazioni (probabilmente nemmeno euristica). Tutto ciò che può fare è monitorare se stesso e riportare i numeri, tutto qui. Ad esempio, ho un'unità che aveva un cavo di alimentazione mal collegato, che lo ha causato accendersi e spegnersi molto rapidamente più volte (facendo un suono "click-of-death"). Ho riposizionato il connettore, quindi ora funziona senza problemi, ma a causa del temporaneo errore (risolvibile) che una volta ha registrato in modo permanente un evento RRER nello SMART, facendo sembrare che non stia funzionando.
Synetech,

Risposte:


14

Sembra che diversi produttori utilizzino i valori SMART per cose a volte radicalmente diverse, come puoi vedere qui :

I miei dischi rigidi in ReadyNAS riportano un elevato tasso di errori di lettura SMART Raw, tasso di errore di ricerca e hardware ECC ripristinato. Cosa dovrei fare?

Seagate utilizza questi campi SMART per i conteggi interni, quindi questo è un problema noto con i dischi Seagate. Cercare conteggi anomali in altri campi, in particolare il settore riallocato Ct e il conteggio errori ATA.

Quindi, quando si tratta della tua vera domanda ...

Se ho la fortuna che un'unità guasta mostri un suggerimento di errore, come errori di scansione o settori riallocati, so di togliermi di mezzo il disco. Se questo suggerimento non esiste, probabilmente passerò molte ore a risolvere la lentezza e la corruzione dei dati fino a quando finalmente scoprirò che il disco rigido è difettoso.

Direi che una buona regola empirica è che puoi solo aspettarti che le impostazioni SMART siano comparabili all'interno dello stesso produttore di unità e forse anche lo stesso modello di unità!

Quindi, quando stai cercando di diagnosticare quei conteggi SMART, tienilo a mente ... Il "conteggio dei tentativi di lettura degli errori" di un produttore può significare qualcosa di completamente diverso da quello di un altro produttore. Triste ma vero. :(


14

Va bene, prima di tutto non sono d'accordo con la tua premessa.

Google ha condotto uno studio che indica che alcuni dati grezzi attribuiscono che lo stato SMART dei rapporti sui dischi rigidi può avere una forte correlazione con il futuro guasto dell'unità.

In realtà hanno trovato il contrario:

... scopriamo che i modelli di previsione dei guasti basati esclusivamente sui parametri SMART possono essere severamente limitati nella loro precisione di previsione, dato che gran parte delle nostre unità guaste non hanno mostrato alcun segnale di errore SMART.

In secondo luogo, le soglie SMART non sono standardizzate. Il firmware sul disco stesso contrassegnerà un attributo come "pre-errore", ma i valori grezzi non hanno senso per l'utente. Ad esempio, Seagate afferma :

Vari attributi vengono monitorati e misurati rispetto a determinati limiti di soglia. Se uno qualsiasi degli attributi supera una soglia, un test di stato SMART generale passerà da Passa a Fallito.

I valori SMART che potrebbero essere letti dal software SMART di terze parti non si basano sul modo in cui i valori possono essere utilizzati all'interno dei dischi rigidi Seagate. Seagate non fornisce supporto per programmi software che dichiarano di leggere singoli attributi e soglie SMART. Potrebbe esserci una certa correttezza storica sulle unità più vecchie, ma le nuove unità, senza dubbio, avranno incorporato nuove soluzioni, attributi e soglie.

tl; dr Riepilogo:

I valori SMART grezzi sono quasi privi di significato, poiché diversi produttori li usano in modi diversi e hanno soglie diverse ecc. Il firmware dell'unità stessa ti dirà quando si trova in "pre-guasto" ... o potrebbe non farlo, SMART in realtà non lo è molto affidabile.

Eseguire backup regolari!


Sulla base dei tuoi commenti non sembra che tu abbia letto tutto il mio post. Questo è il motivo per cui ho inserito tutte le informazioni e le citazioni di base. Hai citato Google, ma solo una parte molto selezionata di esso. Se leggi la parte appena prima del tuo preventivo ... dice che alcuni attributi hanno una forte correlazione fallimentare ... come i conteggi del settore riallocati. I produttori non riportano le unità come pre-guasto dopo un settore riallocato. Ciò indica chiaramente che è possibile ottenere una migliore indicazione dell'integrità dell'unità esaminando i dati non elaborati.
James T,

Vorrei anche aggiungere che il mio disco Seagate stava corrompendo i miei dati e che i valori dei dati grezzi erano notevolmente diversi da quelli che ho imparato ad essere sani drive. Chiaramente qualcosa non va nel punto in cui il produttore imposta la soglia.
James T,

Penso che devi rileggere il mio post e il mio link. I valori SMART grezzi non sono indicatori affidabili di nulla . Il rapporto di Google non dice che "alcuni attributi hanno una forte correlazione fallimentare". Ciò che fa dire è che, nonostante il fatto che "dopo il loro primo errore di scansione, le unità sono 39 volte più probabilità di fallire entro 60 giorni rispetto alle unità senza questi errori", meno del 15% della popolazione disco guasto aveva alcun Errori di scansione. È un indicatore affidabile se è giusto il 15% delle volte?
sml

1
@scottl Non sono sicuro da dove hai ottenuto il tuo 15%. Non l'ho visto nell'articolo. Anche se solo il 15% delle loro unità presentava errori di scansione ... hanno scoperto che un'unità con errori di scansione ha una probabilità 39 volte maggiore di funzionare in 60 giorni. Ciò non significa che l'unità non si guasterà se non si verificano errori di scansione. Questo significa solo che se si verifica un errore di scansione ... la durata residua dei dischi rigidi è probabilmente breve. Hai mai preso delle statistiche? L'ho trovato molto utile.
James T,

1
Le FAQ di smartmontools dicono: Gli attributi SMART grezzi (temperatura, durata all'accensione e così via) sono memorizzati in strutture specifiche del fornitore. A volte questi sono strani. I dischi Hitachi (almeno alcuni di essi) memorizzano la durata di accensione in minuti, anziché in ore (vedere la domanda successiva di seguito). I dischi IBM (almeno alcuni di essi) hanno tre temperature memorizzate nella struttura grezza, non solo una. E così via.
sml

4

Non sono esattamente sicuro di quale sia la domanda che stai ponendo. Sembra che tu abbia l'intera domanda e la risposta raggruppate in una ma ...

Hai confrontato le metriche del disco rigido con quelle fornite da SeaTools

È lo strumento diagnostico hardware standard di Seagate e AFAIK lo strumento diagnostico per HDD più comunemente usato.

Non sorprenderti se scopri che gli strumenti riportano risultati sfavorevoli sui loro concorrenti. Gli strumenti generalmente funzionano con gli HDD di tutti i produttori, ma ciò non significa che abbiano fatto apparire bene i loro concorrenti mentre lo facevano.

Non hai mai sentito la battuta, "il 99,99% di tutte le statistiche è vero tranne, ovviamente, questa statistica".


1
Sì ... è un po 'confuso. Fondamentalmente ho inserito tutte le informazioni di base che conosco prima della domanda e tutti i miei test e congetture dopo la domanda. Ecco la mia domanda "Come posso normalizzare questi dati?". Fondamentalmente .. come faccio a fare in modo che tutti gli attributi dei dati di un produttore significino la stessa cosa degli attributi dei dati di un altro produttore in modo da poterli confrontare accuratamente.
James T,

@James Puoi provare a raccogliere i dati da quante più differenze possibili e capire come ciascuno se interpreta i dati in modo diverso l'uno dall'altro. Potrebbero tutti riportare dati corretti, potrebbero semplicemente interpretarli in un modo diverso come hai sottolineato. Ecco perché ho aggiunto la citazione delle statistiche ... Solo perché i dati sono buoni, non significa che le interpretazioni lo siano.
Evan Plaice,

2
Sì, è quello che ho fatto. Ho controllato oltre 70 dischi rigidi diversi e la grande differenza tra errori di ricerca ed errori di lettura sono gli attributi che mi sono rimasti in mente. Immagino che per le unità Seagate, gli errori di lettura abbiano una qualche relazione con l'hardware ecc. Recuperati. Non sono esattamente sicuro di quale sia quella relazione. Speravo che qualcuno qui potesse dirmelo. Speravo anche che qualcuno potesse dirmi perché le unità Seagate hanno enormi conteggi degli errori di ricerca mentre il digitale occidentale sembra sempre avere zero.
James T,

@James Forse qualcuno troverà una risposta migliore ... La mia supposizione onesta è che Western Digital probabilmente non segue l'esatta specifica SMART. Questo è il problema con gli standard hardware, sono ottimi punti di vendita ma ci sono sempre alcuni produttori che commercializzeranno tutti i vantaggi senza seguire le specifiche complete.
Evan Plaice,

Sì, la deviazione dallo standard è ciò che ho immaginato e ciò che l'articolo di Wikipedia suggerisce. Mi piacerebbe sapere come si differenziano in modo da poter confrontare correttamente i due produttori (e forse altri). Grazie per i commenti Evan. Speriamo che questo chiarisca la domanda anche per gli altri.
James T,

2

Nella realtà fisica degli interni del disco rigido, tutte le marche di dischi rigidi di dimensioni superiori a 100 MB avranno molti errori di lettura fisica. La maggior parte di questi sono corretti in modo sicuro da ECC, alcuni (si spera pochissimi) sono erroneamente corretti da ECC e gli altri (pochi ma più delle correzioni sbagliate) sono riportati al computer come letti non riusciti e dovrebbero anche far riposizionare automaticamente l'unità settore danneggiato.

Oltre a correggere errori di lettura non elaborati, ECC corregge anche le letture secondo cui l'hardware era corretto, ma i bit restituiti erano leggermente errati. Pertanto la correzione ECC potrebbe essere "lettura non riuscita non riuscita ma corretta da ECC + lettura non riuscita riuscita ma errata e corretta da ECC".

Pertanto sembrano possibili due interpretazioni dei dati:

R. Le unità non Seagate non includono gli errori di lettura corretti ECC nel "conteggio degli errori di lettura non elaborati", ma solo gli errori non risolvibili.

B. Seagate lo considera un errore di lettura se ECC rileva qualcosa di sbagliato nei dati anche se il circuito di basso livello non lo ha notato, altri no.

La normalizzazione sarà molto diversa a seconda della teoria (A o B) corretta.


> dovrebbe anche fare in modo che l'unità si sposti automaticamente nel settore danneggiato. Allora qual è la relazione tra i campi Conteggio settori non correggibili Conteggio eventi trasferiti e Conteggio settori in sospeso correnti ? Non aumenterebbe la corrente , quindi sia trasferito o non correggibile ? Perché sarebbe incorreggibile? Se ha tentato di rimappare un settore danneggiato e non è riuscito (vale a dire, il settore di riserva è danneggiato), non dovrebbe provare a rimappare in un altro settore di riserva? non è uno pneumatico ma ne ha solo uno di riserva.
Synetech,

100 MB? Intendi 100 GB?
Peter Mortensen,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.