Sommario
Ho ricevuto questi messaggi criptici in syslog da quando ho installato un nuovo hardware e non riesco a capire quale sia il problema, se è serio o cosa fare al riguardo.
Sono del nuovo HBA SATA e seguono uno schema. Riceverò diversi dei primi messaggi seguiti da alcuni dei secondi dopo 5-30 secondi. Vengono in BLOB che sono tutti registrati nello stesso secondo e la quantità esatta di ciascuno varia tra circa 2 e 35. Possono essere minuti o ore tra le apparizioni delle voci.
Esempio dei due messaggi:
Jul 13 06:06:23 durandal kernel: [366918.435596] mpt2sas0: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Jul 13 06:06:28 durandal kernel: [366923.145524] mpt2sas0: log_info(0x31110d01): originator(PL), code(0x11), sub_code(0x0d01)
È sempre sempre 0x31120303 seguito da 0x31110d01.
mpt2sas è il driver per l'adattatore bus host SATA che sto usando ma il contenuto dell'errore è eccessivamente criptico. Non mi dice quale sia il problema, con quale disco o porta sia o quanto sia grave.
Hardware
Supermicro X9SCL con un Xeon E3-1220 e 8 GB di RAM.
HBA SAS / SATA Supermicro AOC-USAS2-L8I SAS / SATA basato su LSI SAS2008 collegato a un set di dischi per dischi Supermicro CSE-M35T-1B . Ha tre Western Digital WD30EZRX e due Segate ST3000DM001 collegati. Tutte le unità da 3 TB (esattamente lo stesso numero di settori). Nessun espansore di porte in uso.
L'HBA, i vassoi del disco e 4 delle unità sono nuovi. Uno dei WD30EZRX è in uso da mesi, non ha avuto problemi con esso. Se fosse stato precedentemente collegato al controller Intel SATA integrato, lo aveva spostato nei vani unità con questa nuova configurazione.
Ho avuto problemi con l'HBA che necessitava di reimpostare frequentemente e ottenere prestazioni davvero orribili. Aggiornato il firmware / BIOS a "Fase 12", l'ultima versione disponibile da Supermicro e cambiato il tipo in IT (ovvero passthrough, da IR per raid integrato da quando avrei usato tutto il raid software): 2008IT12.FW. Quell'aggiornamento ha risolto tutti i primi problemi e non ho iniziato a ricevere i messaggi sopra prima (vedi sotto).
I primi quattro dischi che ho aggiunto sono tutti sulla prima porta SFF-8087 (divisa in 4 cavi SATA). L'ultimo disco che ho aggiunto si trova sull'altra porta, se è importante.
L'unico altro disco sul sistema contiene il sistema operativo ed è un vecchio SSD Intel da 80 GB collegato al controller SATA integrato.
Software
Ubuntu 11.10 (onirico). Server Linux 3.0.0-14 x86_64. Utilizzo del driver mpt2sas fornito con il sistema operativo.
Prova di creare un array RAID6 usando Linux md con quei cinque dischi. Iniziato con una matrice degenerata di 3 dischi, i due Segate e una delle nuove unità WD. È stato veloce ed è andato molto bene, nessun messaggio nei registri dopo aver effettuato l'aggiornamento del firmware. Nel frattempo, sto ancora utilizzando il vecchio disco WD sulla porta 0 dello stesso controller.
Aggiunto l'altro nuovo disco WD all'array. La ricostruzione è iniziata e ora ricevo periodicamente quei messaggi in syslog. Non sono sicuro di quanto tempo ci vorrà per aggiungere un disco all'array ma il tempo stimato (cat / proc / mdstat) va da migliaia a decine di migliaia di minuti, molto più lungo rispetto ai primi 3 dischi. Capisco che i dischi WD sono molto più lenti; Ho avuto diversi modelli per ridurre le possibilità di guasto di più dischi, e quelli erano i due modelli da 3 TB più economici.
Appunti
SMART non segnala alcun problema su alcun disco. Non ci sono errori registrati su alcun disco e nessuna delle statistiche di errore è vicino alla soglia.
I messaggi registrati hanno iniziato a comparire solo dopo aver aggiunto l'ultimo disco, il che suggerisce che uno potrebbe avere un problema ma non ho nient'altro che indichi questo.
Ho trovato un file di intestazione che sembra corrispondere ai messaggi di registrazione di questo driver. Il primo messaggio sembra essere un abort (codice 12) per un "sottocodice" 0303 che non è elencato. Il secondo messaggio è un reset (codice 11) per un motivo che non è chiaro. Se potessi determinare cosa significano 0303 e 0d01, sarebbe davvero utile.
So che 4 dischi in un RAID6 a 5 dischi sono un array incompleto. Sto pianificando di copiare il contenuto del vecchio disco nell'array al termine dell'integrazione del 4 ° disco e quindi aggiungere anche il vecchio disco all'array.