Come posso diagnosticare e risolvere un problema di connessione al disco intermittente?


0

Ho un notebook Lenovo X250 con test Debian. Ha un SSD SATA da 2,5 "Crucial MX100 da 2,5".

Di tanto in tanto, il computer si bloccherà e dovrò riavviare. Se riesco a passare a una console, vedo molti messaggi su ATA COM RESETe errori di lettura / scrittura di btrfs. A volte diventerà reattivo ma con il filesystem di root montato in sola lettura e non effettivamente leggibile. I file nella cache possono essere letti, ma non altri file.

Cose strane:

  • può andare per molti giorni senza agire
  • è fortemente correlato allo spostamento del computer mentre è acceso; Ho iniziato a chiudere sempre il coperchio durante lo spostamento
  • il problema richiede il potere del ciclo per risolversi: un riavvio graduale tramite sysreq magico finirà con il BIOS che non trova un dispositivo avviabile

La mia vaga convinzione è che ci sia un qualche tipo di contatto influenzato dalla flessione del telaio. Cose che ho provato:

  • verifica dello stato SMART (tutto chiaro)
  • riposizionare l'unità

Non ho un SSD SATA da 2,5 "di riserva con cui provare. Posso sicuramente acquistarne uno nuovo, ma preferirei non farlo a meno che non mi aspetto che risolva le cose.

Qualsiasi idea sarebbe molto apprezzata!

Uscita di smartctl -A:

smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.14.0-2-amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   100   100   000    Pre-fail  Always       -       0
  5 Reallocate_NAND_Blk_Cnt 0x0033   100   100   000    Pre-fail  Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       5888
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       7741
171 Program_Fail_Count      0x0032   100   100   000    Old_age   Always       -       0
172 Erase_Fail_Count        0x0032   100   100   000    Old_age   Always       -       0
173 Ave_Block-Erase_Count   0x0032   086   086   000    Old_age   Always       -       431
174 Unexpect_Power_Loss_Ct  0x0032   100   100   000    Old_age   Always       -       126
180 Unused_Reserve_NAND_Blk 0x0033   000   000   000    Pre-fail  Always       -       4403
183 SATA_Interfac_Downshift 0x0032   100   100   000    Old_age   Always       -       0
184 Error_Correction_Count  0x0032   100   100   000    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
194 Temperature_Celsius     0x0022   074   040   000    Old_age   Always       -       26 (Min/Max 12/60)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   100   100   000    Old_age   Always       -       0
202 Percent_Lifetime_Used   0x0031   086   086   000    Pre-fail  Offline      -       14
206 Write_Error_Rate        0x000e   100   100   000    Old_age   Always       -       0
210 Success_RAIN_Recov_Cnt  0x0032   100   100   000    Old_age   Always       -       0
246 Total_Host_Sector_Write 0x0032   100   100   000    Old_age   Always       -       31996614953
247 Host_Program_Page_Count 0x0032   100   100   000    Old_age   Always       -       1008715183
248 Bckgnd_Program_Page_Cnt 0x0032   100   100   000    Old_age   Always       -       258122736

1
Si consiglia vivamente di pubblicare l'output di smartctl -A /dev/sda. Potrebbe esserci qualcosa che gli altri sanno essere un problema che non conosci.
Ha disegnato Chapin il

@DrewChapin grazie per il suggerimento, ho modificato la domanda per includerla.
Kamalmarhubi,

Risposte:


0

Non hai menzionato nessuna di queste cose, quindi le elencherò:

  1. Controllare i log degli errori SMART del disco. Se puoi dimostrare che ci sono errori e che l'unità è ancora coperta dalla garanzia del produttore, Crucial lo sostituirà.

    smartctl -l error /dev/sda
    
  2. Esegui un test di trasporto e sposta il laptop mentre esegue il test.

    smartctl -t conveyance /dev/sda
    

    Dalla manpage:

    trasporto: [solo ATA] esegue un autotest di trasporto SMART (minuti). Questa routine di autotest ha lo scopo di identificare i danni subiti durante il trasporto del dispositivo. Il completamento di questa routine di autotest richiede all'ordine dei minuti. Si noti che questo comando può essere dato durante il normale funzionamento del sistema (a meno che non venga eseguito in modalità captive - vedere l'opzione '-C' di seguito).

  3. Eseguire l' longautotest.

    smartctl -t long /dev/sda
    

    long - [ATA] esegue SMART Extended Self Test (da decine di minuti a diverse ore). Questa è una versione più lunga e approfondita del Short Self Test sopra descritto. Si noti che questo comando può essere dato durante il normale funzionamento del sistema (a meno che non venga eseguito in modalità captive - vedere l'opzione '-C' di seguito).

  4. Se è stato prodotto prima di marzo 2015, c'è un aggiornamento del firmware per l'unità. Questo potrebbe aiutare. L'ultima nota nel riepilogo della versione sulla correzione dei report per l'attributo SMART 5, che è il conteggio dei settori riallocato (tecnicamente, blocchi di memoria flash non riusciti poiché si tratta di un SSD), è particolarmente sospetta per me. È possibile che sia presente un numero elevato di settori riallocati e SMART non lo stia segnalando correttamente.

    Data di rilascio: 03/10/2015

    Il firmware per MX100 (tutti i fattori di forma) è in fase di aggiornamento dalla versione MU01 a MU02. MX100 è aggiornabile a questo nuovo firmware a partire dalle versioni precedenti utilizzando gli strumenti forniti da Micron.

    Questo aggiornamento sarà obbligatorio per il nuovo prodotto incorporato negli stabilimenti Micron ed è un aggiornamento OPZIONALE per qualsiasi unità sul campo. Per gli utenti finali, si consiglia se l'utente sta vivendo o desidera prevenire un problema relativo ai seguenti elementi.

    La versione MU02 include le seguenti modifiche:

    Stabilità, efficienza e prestazioni
    migliorate durante le transizioni di stato di alimentazione Gestione migliorata di ambienti con alimentatori instabili
    Gestione migliorata di ambienti con problemi di integrità del segnale dell'interfaccia SATA
    Tempo di risposta migliorato per i comandi di lettura SMART Comandi di
    correzione errori Comandi Trim NCQ
    Segnalazione corretta di Attributo SMART 5

    http://www.crucial.com/usa/en/support-ssd-firmware

  5. Prendi in considerazione la possibilità di ripartizionare il disco e probabilmente provare un altro sistema operativo. Soprattutto dal momento che stai usando il sapore di prova di Debian.

  6. Considera che il tuo problema non è l'unità, e forse con la scheda madre.

  7. Rimuovere l'unità e avviare da un ambiente live Debian (unità flash o CD). Prova a replicare il congelamento. Ovviamente, se lo fa ancora, non può essere l'unità.


Grazie per i suggerimenti Ci sto lavorando. Ho eseguito autotest intelligenti in passato e non ho riscontrato errori. Il più recente è stato circa 4 mesi fa secondo i registri. Il problema era già lì allora.
Kamalmarhubi,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.