I dischi rigidi non sono in linea per motivi sconosciuti


11

Ho 7 sistemi che eseguono l'installazione di seguito. Di tanto in tanto un altro disco non è in linea, ma a un esame più attento il disco è buono e non difettoso e funziona perfettamente per almeno un altro anno. Dato che ciò accade su tutti e 7 i sistemi, è improbabile che esista una singola parte che agisce (ad es. Cavo), ma che è invece la combinazione di alcune parti leggermente incompatibile.

Il problema è individuare il punto esatto in cui si trova l'incompatibilità.

(Se invece hai una soluzione alternativa in cui è possibile eseguire una nuova sistemazione virtuale del disco rigido dalla riga di comando, potresti essere in grado di rispondere a /server/523315/re-activate-device -questo-è-considerato-morto ).

Hardware server: Dell 1950, Dell R815, Dell R715.

Sistema operativo:

$ uname -a
Linux franklin 3.2.0-4-amd64 #1 SMP Debian 3.2.41-2+deb7u2 x86_64 GNU/Linux

controller:

$ lspci |grep 22: 
22:00.0 Serial Attached SCSI controller: LSI Logic / Symbios Logic SAS2008 PCI-Express Fusion-MPT SAS-2 [Falcon] (rev 03)
$ sas2flash -listall
LSI Corporation SAS2 Flash Utility
Version 15.00.00.00 (2012.11.06) 
Copyright (c) 2008-2012 LSI Corporation. All rights reserved

    Adapter Selected is a LSI SAS: SAS2008(B2)   

Num   Ctlr            FW Ver        NVDATA        x86-BIOS         PCI Addr
----------------------------------------------------------------------------

1  SAS2008(B2)     15.00.00.00    0f.00.00.04    07.29.00.00     00:22:00:00

    Finished Processing Commands Successfully.
    Exiting SAS2Flash.

Espansore SAS / SATA Supermicro 4U SAS / SATA Backplane di espansione con singolo chip di espansione LSI SAS2X36:

cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:21/end_device-5:0:21/target5:0:21/5:0:21:0/model
SAS2X36         
cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:21/end_device-5:0:21/target5:0:21/5:0:21:0/rev
0717

dischi:

$ cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:1/end_device-5:0:1/target5:0:1/5:0:1:0/model
Hitachi HDS72404
$ cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:1/end_device-5:0:1/target5:0:1/5:0:1:0/rev
A3B0

Dischi in un sistema:

$ cat /sys/devices/pci0000:20/0000:20:0b.0/0000:23:00.0/host5/port-5:0/expander-5:0/port-5:0:8/end_device-5:0:8/target5:0:8/5:0:8:0/model
ST3000DM001-9YN1
$ cat /sys/devices/pci0000:20/0000:20:0b.0/0000:23:00.0/host5/port-5:0/expander-5:0/port-5:0:8/end_device-5:0:8/target5:0:8/5:0:8:0/rev
CC4C

syslog:

sd 5:0:22:0: [sdw] Unhandled error code
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
sd 5:0:22:0: [sdw] Unhandled error code
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
sd 5:0:22:0: [sdw]
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b9 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982694144
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b7 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982693632
sd 5:0:22:0: [sdw] Unhandled error code
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Read(16):
sd 5:0:22:0: [sdw] Unhandled error code
 88 00 00 00 00 01 43 e2 f2 d0 00 00 00 10 00 00
end_request: I/O error, dev sdw, sector 5433914064
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 bd 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982695168
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
md/raid:md4: Disk failure on sdw, disabling device.
md/raid:md4: Operation continuing on 9 devices.
scsi 5:0:22:0: [sdw] Unhandled error code
scsi 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
scsi 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b8 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982693888
scsi 5:0:22:0: [sdw] Unhandled error code
scsi 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
scsi 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 bc 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982694912
mpt2sas1: removing handle(0x0021), sas_addr(0x500304800182694c)

9
+1 per aver iniziato a porre le domande importanti :)
Sven

Un cavo difettoso, privo di schermatura, può causare problemi con i checksum. [causando così problemi di lettura e scrittura]. Hai provato a sostituire i cavi?
monk

I cavi sono stati sostituiti con prodotti noti. Inoltre mi aspetterei che Linux riprovi il comando dopo aver ripristinato il bus scsi.
Ole Tange,

2
Da quello che sono riuscito a scavare finora, i messaggi indicano che ci sono problemi di connettività - non avvisi SMART .. forse qualcun altro con una vasta esperienza BiY può aiutare. Tutto quello che so è che stanno lontani dai dischi S-ATA in grandi configurazioni a causa della mancanza di comandi / code rispetto a SAS. Chiederò ad alcuni di dare un'occhiata a questo.
pauska,

@pauska Puoi elaborare (con link?) quello che hai scavato?
Ole Tange,

Risposte:


1

Ci mancano informazioni qui. Stai suggerendo di avere 24-45 dischi per server in questa configurazione di archiviazione.

  • Quali controller specifici stai usando?
  • A causa del numero di dischi, è possibile che alcune unità siano presenti in un contenitore esterno. Fornire la marca / modello dell'involucro dell'unità esterna in uso.
  • Quali specifici modelli di unità stai usando? Sono tutte le unità disco del desktop-grade?
  • Quale filesystem stai usando?
  • Descrivere il layout del disco e RAID.
  • È sempre stato un problema o si è sviluppato nel tempo?
  • Supermicro è coinvolto ovunque in questa configurazione?

A seconda della configurazione del contenitore, è possibile che si verifichino timeout SATA o errori del bus. Ciò può avere effetti negativi su tutte le unità collegate al controller.

Un altro problema potrebbe essere la scarsa negoziazione dei collegamenti SAS / SATA. L'ho sicuramente sperimentato su alcuni espansori SAS quando unità da 1,5 Gbps e 6,0 Gbps sono miste sulla stessa scheda.

Si prega di fornire ulteriori informazioni.


Sono molto interessato alla tua domanda su Supermicro. Puoi elaborare?
Halfgaar,

@Halfgaar Potresti fornire il feedback sulle altre domande che ho posto?
ewwhite,

Il post originale non è mio. Sono solo curioso di questa affermazione.
Halfgaar,

1
@Halfgaar Ooops ... Beh, ho scoperto che Supermicro SAS espansi / backplane e alcuni dei contenitori JBOD non si comportano in modo prevedibile in molte circostanze. La nota nella mia risposta sul downshifting della velocità SAS / SATA e sulla negoziazione dei collegamenti è qualcosa che ho sperimentato solo su alcune revisioni degli equipaggiamenti Supermicro. Inoltre non riesco più a utilizzare i loro JBOD per ZFS a causa del comportamento traballante.
ewwhite,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.