Questi errori SATA sono pericolosi?


36

Ricevo questi errori in modo ramoso e non so se sia normale o no.

[39441.061856] ata3.00: failed to read SCR 1 (Emask=0x40)
[39441.061866] ata3.01: failed to read SCR 1 (Emask=0x40)
[39441.061892] ata3.15: exception Emask 0x10 SAct 0x0 SErr 0x280100 action 0x6 frozen
[39441.061897] ata3.15: irq_stat 0x08000000, interface fatal error
[39441.061904] ata3.15: SError: { UnrecovData 10B8B BadCRC }
[39441.061910] ata3.00: exception Emask 0x100 SAct 0x0 SErr 0x0 action 0x6 frozen
[39441.061917] ata3.01: exception Emask 0x100 SAct 0xe SErr 0x0 action 0x6 frozen
[39441.061923] ata3.01: failed command: READ FPDMA QUEUED
[39441.061933] ata3.01: cmd 60/a8:08:b0:48:62/00:00:00:00:00/40 tag 1 ncq 86016 in
[39441.061940] ata3.01: status: { DRDY }
[39441.061944] ata3.01: failed command: READ FPDMA QUEUED
[39441.061953] ata3.01: cmd 60/a8:10:b0:49:62/00:00:00:00:00/40 tag 2 ncq 86016 in
[39441.061959] ata3.01: status: { DRDY }
[39441.061963] ata3.01: failed command: READ FPDMA QUEUED
[39441.061972] ata3.01: cmd 60/58:18:58:4a:62/00:00:00:00:00/40 tag 3 ncq 45056 in
[39441.061978] ata3.01: status: { DRDY }
[39441.061987] ata3.15: hard resetting link
[39441.608302] ata3.15: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[39441.609090] ata3.00: hard resetting link
[39441.929246] ata3.00: SATA link up 3.0 Gbps (SStatus 123 SControl 320)
[39441.929333] ata3.01: hard resetting link
[39442.249184] ata3.01: SATA link up 3.0 Gbps (SStatus 123 SControl 320)
[39442.263242] ata3.00: configured for UDMA/133
[39442.277570] ata3.01: configured for UDMA/133
[39442.277725] ata3: EH complete

Sto anche incollando smartctl -aper sda , sdb e sdc .

Grazie in anticipo per il vostro aiuto.

Risposte:


16

Pur essendo sostanzialmente d'accordo con la risposta di Geppettvs D'Constanzo , suggerirei che alcune delle prime cose che potresti provare sono anche

  1. Verifica che il cavo SATA sia saldamente collegato e inserito nelle prese sulla scheda madre e sul disco rigido.

  2. Sostituzione del cavo SATA. I cavi SATA sono (relativamente) economici e a volte ne ottieni uno " cattivo ". Spesso la semplice sostituzione del cavo è il modo più semplice per diagnosticare e risolvere un problema come questo.

(Anche se è in qualche modo inaspettato che due cavi sarebbero entrambi dannosi allo stesso tempo. Tuttavia, è una cosa facile da controllare, quindi a mio avviso probabilmente vale la pena farlo.)

Ti ho appena visto pastine contenenti i dati SMART per le tue unità. Si noti il ​​numero inaspettatamente elevato di errori CRC per unità sdbe sdc. Ti suggerisco di iniziare controllando i cavi e le connessioni per quelle unità.

junior@mediacenter:/$ sudo  smartctl -a /dev/sda
...
Model Family:     SAMSUNG SpinPoint M7E (AFT)
Device Model:     SAMSUNG HM321HI
...
199 UDMA_CRC_Error_Count    0x0036   200   200   000   Old_age  Always -    0

junior@mediacenter:/$ sudo  smartctl -a /dev/sdb
...
Model Family:     SAMSUNG SpinPoint F4 EG (AFT)
Device Model:     SAMSUNG HD204UI
...
199 UDMA_CRC_Error_Count    0x0036   100   100   000   Old_age  Always  -  57

junior@mediacenter:/$ sudo  smartctl -a /dev/sdc
...
Model Family:     SAMSUNG SpinPoint F4 EG (AFT)
Device Model:     SAMSUNG HD204UI
...
199 UDMA_CRC_Error_Count    0x0036   100   100   000   Old_age  Always  - 398

OK. Quindi non un latpop allora. ;-)
Certo, se questo sta accadendo su un laptop di quanto non si applica nessuno dei precedenti e non sono sicuro di quale consiglio offrire. Forse rimuovere e reinstallare il disco rigido? Forse deve solo essere riposizionato nella sua presa per migliorare la connessione?


sbde sdcsono collegati sullo stesso cavo e-sata esterno (Dock per HDD Thermaltake Duo). sostituirò il mio cavo e-sata.

Potrebbe essere dovuto a un cavo difettoso o di bassa qualità. Potrebbe anche essere che il cavo sia in qualche modo spostato, urtato o altrimenti scosso mentre l'unità viene utilizzata.


1
sbde sdcsono entrambi collegati sullo stesso cavo e-sata esterno (Dock per HDD Thermaltake Duo). sostituirò il mio cavo e-sata.
Marcos Junior,

9

Sembra che tu abbia un cavo dati / alimentazione SATA di cattiva qualità / danneggiato. Che potrebbe causare CRC Bad. Non sono affatto dannosi e puoi convivere con loro ma perderai presto molti dati.

Il rapporto SMART delle unità disco rigido sembra sano, quindi sono interessato a problemi di alimentazione in base alla mia esperienza durante l'impostazione di 5 unità disco rigido nella stessa custodia / fonte di alimentazione. Ho finito di utilizzare una fonte di alimentazione esterna (475 W) per 2 unità e 600 W del case per tutto il case, inclusi GPU, unità ottiche e hard disk.

Ad ogni modo, ti consiglio di eseguire un backup completo prima di fare qualsiasi altra cosa. Se possibile, clonare il disco rigido, dopodiché è necessario controllare i cavi e le tensioni di alimentazione.


Per curiosità, quella GPU era una GPU grande e affamata di energia?
irrazionale John,

1
nVidia Quadro 4000, non così affamato.
Geppettvs D'Constanzo,

1
Interessante. Ho un alimentatore Antec (Neo-Eco) da 400w, 5 dischi rigidi, 2 unità ottiche e una NVIDIA GeForce 9500 GT e non credo di avere problemi di alimentazione. Ho errori di CRC sull'unità , ma penso che provengano da stupidi errori dell'utente che ho commesso qualche tempo fa. (Saltare un cavo e simili.) Non ho notato alcun registro degli avvisi nei miei messaggi del kernel . Tuttavia, immagino che dovrei tenerlo d'occhio più da vicino solo per essere al sicuro.
irrazionale John,

1
1xIDE DVD-RW, 1xSATA DVD-RW e 1xSATA Blu-Ray ROM Unità ottica da questo lato. 4 HDD SATA e 1 IDE, GPU ha un consumo di energia di 142 Watt. Non posso dire di essere assolutamente sicuro che si trattasse di problemi di alimentazione, ma quando ho aggiunto la nuova fonte di alimentazione i problemi sono scomparsi. A proposito, i miei dischi sembrano essere sani. Ma grazie per avermelo fatto vedere. La tua opinione è molto apprezzata da questo lato. Grazie!
Geppettvs D'Constanzo,

1
Uh, 142 watt per una GPU sono ... qualcosa. Il mio intero sistema (di solito) usa meno di quello. Mentre scrivo questo il mio desktop box sta tirando ~ 117 watt. (Secondo Kill-A-Watt avevo dimenticato di averlo ancora collegato. ;-)
irrazionale John

4

Sembra esserci un problema tra alcune versioni del kernel e alcuni controller SATA.

Di recente ho iniziato a soffrire di un problema molto simile (non sono sicuro che sia lo stesso) su un server Web che esegue Scientific Linux.

Le informazioni più accurate e complete che ho trovato su tale problema sono questo bug del launchpad .

In breve: la disabilitazione di NCQ sembra essere la soluzione alternativa migliore per gli utenti che hanno questo problema.


3
La disabilitazione di NCQ è una soluzione alternativa comune per l'hardware difettoso. Non sembra esserci un bug del kernel.
psusi,

Holy $ #! + Che ha funzionato! Tutti i miei messaggi di errore sono scomparsi e il mio sistema ha smesso di bloccarsi! Non sono assolutamente d'accordo con non un bug del kernel, dal momento che posso usare la versione del kernel precedente (fino alla serie almeno 2.6) senza alcun crash. Non riesco a credere di non averlo trovato prima!
reukiodo,

1

Questo è quasi sempre un disco difettoso, ho migliaia di unità che utilizziamo e sebbene questi errori non causino mai il guasto dell'unità, hanno portato alla corruzione del file system. Penso che abbia davvero a che fare con un problema con la scheda controller sull'unità.

Ho provato di tutto per risolvere questo problema, la soluzione è sostituire l'unità e le cose funzionano sugli stessi cavi e controller.

In bocca al lupo


Dopo oltre 30 anni di risoluzione di questi problemi per vivere, posso assicurarti che nella mia esperienza questo è quasi sempre un cavo pericoloso. E poiché sono economici, lo provi prima.
Elder Geek,

0

So che questo thread è vecchio ma di recente ho riscontrato lo stesso problema su una macchina appena acquistata con 6 slot SATA. Ho installato il cdrom e il disco rigido su 2 slot sata vicini l'uno all'altro e quindi ho proceduto all'installazione di Ubuntu senza errori fino a quando non ho riavviato, quindi ho visto ata8: errore di collegamento del ripristino hard. La macchina si ferma fino a questo punto mai recuperata. Ho provato a riavviare alcune volte e non ha funzionato. E poi ho provato a sostituire il disco rigido su uno dei 4 slot disponibili e ha funzionato bene senza problemi.


Vuoi dire che hai cambiato la porta SATA a cui era collegato il disco rigido, giusto? O intendi sostituire l'intero disco rigido con un altro? Penso che sia il primo, ma
sto

È il primo.
ultrajohn

0

Aveva lo stesso problema: nel mio caso ciò era dovuto al fatto che l'adattatore di alimentazione SATA a 4 pin non veniva inserito correttamente.



0

Ho avuto lo stesso problema. Avevo provato di tutto ma solo sulla porta j-micron del mio asus p5k non avevo errori.

Ma quando ho messo l'unità su un altro alimentatore ha funzionato e gli errori erano spariti. Quindi ho rimesso l'unità al suo alimentatore originale ma un nuovo connettore di alimentazione e anche quello ha funzionato.


0

So che questa discussione è vecchia, ma si è appena imbattuto nello stesso problema, è venuto qui da Google.

  • ottenendo ata3.01: failed command: READ FPDMA QUEUEDsull'avvio del livecd KUBUNTU 16.04.
  • WINDOWS 7 si comporterà in modo irregolare, funziona bene per un po ', ma si blocca dopo aver visto YouTube.

Cambiare il cavo SATA non ha fatto nulla.
Sostituito l'alimentatore e il problema è scomparso.


0

È improbabile che questo errore danneggi il disco rigido, ma è molto probabile che danneggi i file system. Inizia determinando quale unità sta generando gli errori. Questo di solito può essere determinato facilmente da una serie di approcci come:

1) Emettere il comando dmesg | grep ata3e cercare la marca e il modello del disco rigido. (poiché ata3 è la porta che genera l'errore nella tua situazione. Regola di conseguenza) questo fornirà un output simile a questo:

dmesg | grep ata3
[    4.756081] ata3: SATA max UDMA/133 abar m2048@0xf7f26000 port 0xf7f26200 irq 135
[    5.071981] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[    5.077850] ata3.00: HPA detected: current 1953523055, native 1953525168
[    5.077959] ata3.00: ATA-8: SAMSUNG HD103SJ, 1AJ10001, max UDMA/133
[    5.077960] ata3.00: 1953523055 sectors, multi 16: LBA48 NCQ (depth 32), AA
[    5.084057] ata3.00: configured for UDMA/133

Una rapida occhiata indica che l'unità collegata ad ata3 è SAMSUNG HD103SJ

2) Emettere il comando seguente:

find -L /sys/bus/pci/devices/*/ata*/host*/target* -maxdepth 3 -name "sd*" 2>/dev/null | egrep block |egrep --colour '(ata[0-9]*)|(sd.*)'

Ciò fornirà sia le porte che i nomi dei dispositivi evidenziati sulla stessa riga come mostrato di seguito:

produzione

È facile vedere che al dispositivo collegato ad ata3 è stato assegnato il nome del dispositivo sdb

3) installare lsscsi con sudo apt install lsscsied emettere il comandolsscsi

$ lsscsi
[0:0:0:0]    cd/dvd  ATAPI    iHAS124   F      CL9M  /dev/sr0 
[1:0:0:0]    disk    ATA      WDC WD2003FZEX-0 1A01  /dev/sda 
[2:0:0:0]    disk    ATA      SAMSUNG HD103SJ  0001  /dev/sdb 
[3:0:0:0]    disk    ATA      ST6000VN0033-2EE SC60  /dev/sdc 

Si noti che la prima voce su ciascuna riga sopra è scsi_host, channel, target_number e LUN. È racchiuso tra parentesi e ogni elemento è separato da due punti. Quando sono presenti più dispositivi SCSI, le voci vengono ordinate in ordine crescente.

Aggiungendo semplicemente 1 al primo numero in ogni riga di output si ottiene la porta ATA. Puoi trovare maggiori dettagli lsscsi qui e qui.

Poiché nel tuo caso stiamo riscontrando errori generati sia su 3.00 che su 3.01, hai più di un'unità collegata alla stessa porta ATA. Vuoi controllare attentamente la connettività sia ata3.00 che ata3.01 Potrebbe trattarsi di un contenitore di unità a più alloggiamenti collegato allo stesso cavo. Poiché entrambe le unità generano errori, la sostituzione del cavo nel suddetto alloggiamento per unità multiple dovrebbe eliminare il problema per entrambe le unità. Questi dispositivi di solito hanno una fonte di alimentazione esterna che potrebbe anche essere il colpevole e deve essere sostituita, ma il cavo (essendo il collegamento più debole) è di gran lunga la causa principale più probabile del problema.

fonti:

Esperienza

https://linux.die.net/man/8/lsscsi

http://sg.danny.cz/scsi/lsscsi.html

https://serverfault.com/questions/244944/linux-ata-errors-translating-to-a-device-name/868943#868943

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.