Come ripristinare i risultati SMART


16

Come posso ripristinare i risultati SMART in modo che non registri i risultati precedenti. La mia ragione è che stavo testando i dischi rigidi chiusi insieme su un case chiuso. Ciò ha fatto fallire la lettura della temperatura del flusso d'aria su uno degli HDD.

Dopo aver aperto il case (che ha abbassato la temperatura di tutte le unità di 10 gradi Celsius in 5 minuti) e poi aver separato le unità un po 'di più (3 gradi in meno) Tutti i risultati sono stati buoni, ma poiché la lettura del flusso d'aria non è riuscita in una lettura precedente, sempre viene visualizzato come non funzionante.

Quindi, come posso ripristinare le letture per SMART?

inserisci qui la descrizione dell'immagine


1
Penso che puoi usare Mhdd per disattivare smart, è con gli strumenti floppy su sysresccd.org/System-tools non la migliore idea ... ma potrebbe valere la pena di esaminare.
Mateo,

2
Perché vuoi ripristinarlo?
Angelo,

Beh, è ​​stato sostanzialmente 3 anni fa, ma credo che sia stato perché, in quel momento, l'HDD si trovava in un posto che aveva MOLTO calore esterno. Dopo averlo spostato in una stanza con un clima più freddo, il problema persisteva, sebbene la temperatura passasse da 68 gradi a 37 gradi. Quindi il problema è stato un aumento della temperatura esterna che ha creato il problema all'inizio, ma stava ancora mostrando dopo averlo spostato in un altro posto.
Luis Alvarado,

Risposte:


0

I dischi rigidi dispongono di spazio libero per motivi di recupero. Il recupero avviene automaticamente. Gli strumenti di recupero rimappano solo settori fisicamente danneggiati in questo spazio libero. Una volta rimappato, quando si verifica una lettura o una scrittura in un settore danneggiato, l'unità trasforma l'accesso allo spazio libero e nasconde l'errore.

Ad essere sincero, non conosco un modo per ripristinare i dati SMART. È qualcosa che il disco rigido mantiene internamente e in ogni caso sarebbe una brutta cosa da fare.

SMART segnala che il disco rigido non funziona! Il ripristino dei contatori non cambierà il fatto che è stata superata una soglia di errore per l'unità.

Quindi NO, non è possibile ripristinare la cronologia SMART. È installato in fabbrica per la valutazione dell'unità in caso di guasto. SMART può essere disabilitato o abilitato.

Spero che questo risponda alla tua domanda.


Ciao Mitch, come spiegato nella domanda, il fallimento non è reale. È stato perché tutti gli HDD sono stati messi molto chiusi insieme in uno spazio poco ventilato. Dopo averlo modificato e testato di nuovo, funzionava perfettamente, tranne per il fatto che menzionava ancora il fallimento passato. Per il momento ho fatto il seguente sudo smartctl -l sataphy, reset / dev / sdd che ha risolto il problema della valutazione complessiva prendendo in considerazione l'errore precedente che ora sembra normale, ma l'errore appare ancora per l'attributo specifico. Ancora una volta, l'HDD non sta effettivamente fallendo, ma l'errore precedente mostra ancora.
Luis Alvarado,

Capisco, ma può sembrare normale, è solo nascosto. Hai chiesto se può essere ripristinato e la risposta è NO. Anche se sei riuscito a nascondere l'errore, una volta che l'unità è stata consegnata al produttore per qualsiasi motivo, possono scoprire cosa è andato storto nel tempo. Tutto ciò che sto dicendo è che l'errore precedente mostra ancora e, a meno che tu non riesca a mettere le mani sugli strumenti utilizzati dai produttori, per ripristinare lo stato SMART dell'unità, verrà comunque visualizzato.
Mitch

26

In realtà esiste un modo per ripristinare i dati SMART. Hai solo bisogno di un semplice convertitore da rs232 a usb (da uart a ttl) e di alcuni cavi collegati alle interfacce diagnostiche hdds. (è sul lato destro della porta sata, 5 o 4 pin) È necessario collegare i cavi RX TX e GND (e il cavo di alimentazione ovviamente: D) quindi accendere l'HDD e connettersi ad esso con stucco o iperterminale (Linux può connettersi con esso proprio terminale immagino) per esempio per le unità Seagate: per 7200.10 e baud rate più vecchio è 9600 per 7200.11 e più recente è 38400

comandi dopo la connessione premi CTRL + Z quindi digita "/ 1" premi invio digita "N1" premi invio quando termina rimuovi tutti i cavi e accendi l'HDD come al solito per vedere le modifiche :)

per altre informazioni hdd usa google :)


5
Questo sembra valere solo per le unità Seagate ma hai ragione, questo video spiega il processo.
Adrian Frühwirth,

5
Uno dei miei colleghi ha contattato Seagate e ci hanno detto che da allora hanno bloccato questa funzione, quindi non è possibile accedervi senza uno strumento proprietario. Non sono sicuro a che punto abbiano fatto questo.
JFA

4

I dati SMART non sono molto standard tra i produttori, ma il test della temperatura del disco rigido dovrebbe indicare se la temperatura dell'unità ha superato una soglia in passato: http://en.wikipedia.org/wiki/SMART#Known_ATA_S.MART_attributes

Il pensiero è che un surriscaldamento aumenta le possibilità di fallimento. SMART non sta dicendo che l'unità è danneggiata, ma ha una maggiore possibilità di guasti in futuro.

SMART vuole essere un controllo della cronologia delle unità ed è gestito dall'unità stessa, quindi non è possibile "ripristinare" o "cancellare" i valori SMART.


3

Il punto degli attributi attuali / peggiori come la temperatura è esattamente questo: dirti se l'azionamento è mai stato al di fuori della sua massima temperatura operativa e quindi potrebbe aver subito danni permanenti.

Ecco perché dice "fallito in passato", non "fallire ora": hai appena toccato a malapena la soglia di temperatura massima. Si noti che la visualizzazione dell'attributo mostra "normalizzato: 50, soglia: 45, peggio: 45". (Questi sono 0..200 valori normalizzati come per qualsiasi altro attributo, non le temperature Celsius non elaborate.)

Hai anche alcuni settori danneggiati (errori di settore non corretti), quindi se la breve alta temperatura lo ha causato o meno, è probabilmente il momento di abbandonare quell'unità.

Una migliore interfaccia utente del software SMART ti mostrerà la temperatura attuale e massima . ad esempio
smartctl -a /dev/sdao smartctl -x /dev/sda(-x stampa tutti i dati SMART e non SMART disponibili che può ottenere dall'unità, incluso un registro cronologico della temperatura se l'unità ne ha uno, con un grafico a barre ASCII.)

smartctl -x include questo per un vecchio disco rigido WD Green da 1 TB (WD10EADS):

Current Temperature:                    36 Celsius
Power Cycle Min/Max Temperature:     25/42 Celsius
Lifetime    Min/Max Temperature:     35/46 Celsius

Il software in uso sembra mostrare solo la temperatura corrente, che è leggermente al di sotto della soglia, ma non nasconderà il fatto che l'unità era fuori specifica a un certo punto in passato.


Potresti certamente giustificare ignorare quella momentanea alta temperatura, se davvero la correggessi in pochi minuti. Ma non sarai (o non dovresti mai) riuscire a far mentire l'unità stessa sul fatto che era oltre la sua temperatura massima nominale per qualche tempo, e quindi l'attributo non ha funzionato in passato.

È possibile configurare smartdper ignorare qualsiasi attributo dato in modo da poter comunque ricevere una notifica utile se qualcos'altro supera una soglia in un territorio ufficialmente fallito. : smartd.conf(5)dice:

-i ID [ATA only]Ignora ID numero attributo dispositivo quando si verifica la presenza di errori negli attributi di utilizzo. ID deve essere un numero intero decimale compreso tra 1 e 255. La presente direttiva modifica il comportamento della direttiva "-f" e non ha alcun effetto senza di essa.

Ciò è utile, ad esempio, se si dispone di un disco molto vecchio e non si desidera continuare a ricevere messaggi sull'attributo ore-in-vita (in genere Attributo 9) in errore. La presente direttiva può apparire più volte per un singolo dispositivo, se si desidera ignorare più attributi.


Attributi cronologici di temperatura estesi

Ho appena ricevuto un nuovo Seagate Barracuda da 6 TB (firmware ST6000DM003-2CY186 0001, un drive da 5425 giri / min), che ha alcune statistiche interessanti, incluso il tempo trascorso a superare i punti operativi min / max, e il massimo / minimo delle temp a breve e log .

SCT Status Version:                  3
SCT Version (vendor specific):       522 (0x020a)
Device State:                        Active (0)
Current Temperature:                    33 Celsius
Power Cycle Min/Max Temperature:     27/33 Celsius
Lifetime    Min/Max Temperature:     27/33 Celsius
Under/Over Temperature Limit Count:   0/0

SCT Temperature History Version:     2
Temperature Sampling Period:         3 minutes
Temperature Logging Interval:        59 minutes
Min/Max recommended Temperature:     14/55 Celsius
Min/Max Temperature Limit:           10/60 Celsius
Temperature History Size (Index):    128 (2)

E nella sezione di dettaglio completo:

0x05  =====  =               =  ===  == Temperature Statistics (rev 1) ==
0x05  0x008  1              33  ---  Current Temperature
0x05  0x010  1               -  ---  Average Short Term Temperature
0x05  0x018  1               -  ---  Average Long Term Temperature
0x05  0x020  1              33  ---  Highest Temperature
0x05  0x028  1              30  ---  Lowest Temperature
0x05  0x030  1               -  ---  Highest Average Short Term Temperature
0x05  0x038  1               -  ---  Lowest Average Short Term Temperature
0x05  0x040  1               -  ---  Highest Average Long Term Temperature
0x05  0x048  1               -  ---  Lowest Average Long Term Temperature
0x05  0x050  4               0  ---  Time in Over-Temperature
0x05  0x058  1              55  ---  Specified Maximum Operating Temperature
0x05  0x060  4               0  ---  Time in Under-Temperature
0x05  0x068  1              13  ---  Specified Minimum Operating Temperature

(L'unità è stata accesa solo per un paio di minuti; questo è presumibilmente il motivo -per cui in alcuni dei campi non è presente alcun dato.)

Se guidi ha questi attributi estesi, puoi mostrare a qualcuno che il tempo trascorso al di fuori della temperatura consentita è stato molto breve (in questo caso). Presumibilmente se avessi modificato i dati SMART, lo avresti fatto e non avresti mai menzionato il fatto che fosse fuori portata, ma ovviamente non puoi fidarti al 100% dei dati di un'unità di seconda mano che qualcuno sta cercando di venderti.

Vedi /superuser/1389522/what-does-it-mean-when-my-new-hdd-reports-errors-at-a-time-that-shouldnt-exist per ulteriori informazioni sulle unità usate con "rollback del contachilometri" sull'attributo "Power_On_Hours", ad esempio.


Grazie Peter per l'analisi approfondita qui. Molto apprezzato.
Luis Alvarado,

0

Per quanto ne so, l'unico modo per fermarlo è disattivare SMART nel BIOS. Questo fermerà solo l'HARDWARE, però.

Il sistema operativo eseguirà comunque la query sull'unità per le sue informazioni SMART e ti dirà che non funziona.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.