Decifrare i messaggi syslog continui di mpt2sas

15

Sommario

Ho ricevuto questi messaggi criptici in syslog da quando ho installato un nuovo hardware e non riesco a capire quale sia il problema, se è serio o cosa fare al riguardo.

Sono del nuovo HBA SATA e seguono uno schema. Riceverò diversi dei primi messaggi seguiti da alcuni dei secondi dopo 5-30 secondi. Vengono in BLOB che sono tutti registrati nello stesso secondo e la quantità esatta di ciascuno varia tra circa 2 e 35. Possono essere minuti o ore tra le apparizioni delle voci.

Esempio dei due messaggi:

Jul 13 06:06:23 durandal kernel: [366918.435596] mpt2sas0: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Jul 13 06:06:28 durandal kernel: [366923.145524] mpt2sas0: log_info(0x31110d01): originator(PL), code(0x11), sub_code(0x0d01)

È sempre sempre 0x31120303 seguito da 0x31110d01.

mpt2sas è il driver per l'adattatore bus host SATA che sto usando ma il contenuto dell'errore è eccessivamente criptico. Non mi dice quale sia il problema, con quale disco o porta sia o quanto sia grave.

Hardware

Supermicro X9SCL con un Xeon E3-1220 e 8 GB di RAM.

HBA SAS / SATA Supermicro AOC-USAS2-L8I SAS / SATA basato su LSI SAS2008 collegato a un set di dischi per dischi Supermicro CSE-M35T-1B . Ha tre Western Digital WD30EZRX e due Segate ST3000DM001 collegati. Tutte le unità da 3 TB (esattamente lo stesso numero di settori). Nessun espansore di porte in uso.

L'HBA, i vassoi del disco e 4 delle unità sono nuovi. Uno dei WD30EZRX è in uso da mesi, non ha avuto problemi con esso. Se fosse stato precedentemente collegato al controller Intel SATA integrato, lo aveva spostato nei vani unità con questa nuova configurazione.

Ho avuto problemi con l'HBA che necessitava di reimpostare frequentemente e ottenere prestazioni davvero orribili. Aggiornato il firmware / BIOS a "Fase 12", l'ultima versione disponibile da Supermicro e cambiato il tipo in IT (ovvero passthrough, da IR per raid integrato da quando avrei usato tutto il raid software): 2008IT12.FW. Quell'aggiornamento ha risolto tutti i primi problemi e non ho iniziato a ricevere i messaggi sopra prima (vedi sotto).

I primi quattro dischi che ho aggiunto sono tutti sulla prima porta SFF-8087 (divisa in 4 cavi SATA). L'ultimo disco che ho aggiunto si trova sull'altra porta, se è importante.

L'unico altro disco sul sistema contiene il sistema operativo ed è un vecchio SSD Intel da 80 GB collegato al controller SATA integrato.

Software

Ubuntu 11.10 (onirico). Server Linux 3.0.0-14 x86_64. Utilizzo del driver mpt2sas fornito con il sistema operativo.

Prova di creare un array RAID6 usando Linux md con quei cinque dischi. Iniziato con una matrice degenerata di 3 dischi, i due Segate e una delle nuove unità WD. È stato veloce ed è andato molto bene, nessun messaggio nei registri dopo aver effettuato l'aggiornamento del firmware. Nel frattempo, sto ancora utilizzando il vecchio disco WD sulla porta 0 dello stesso controller.

Aggiunto l'altro nuovo disco WD all'array. La ricostruzione è iniziata e ora ricevo periodicamente quei messaggi in syslog. Non sono sicuro di quanto tempo ci vorrà per aggiungere un disco all'array ma il tempo stimato (cat / proc / mdstat) va da migliaia a decine di migliaia di minuti, molto più lungo rispetto ai primi 3 dischi. Capisco che i dischi WD sono molto più lenti; Ho avuto diversi modelli per ridurre le possibilità di guasto di più dischi, e quelli erano i due modelli da 3 TB più economici.

Appunti

SMART non segnala alcun problema su alcun disco. Non ci sono errori registrati su alcun disco e nessuna delle statistiche di errore è vicino alla soglia.

I messaggi registrati hanno iniziato a comparire solo dopo aver aggiunto l'ultimo disco, il che suggerisce che uno potrebbe avere un problema ma non ho nient'altro che indichi questo.

Ho trovato un file di intestazione che sembra corrispondere ai messaggi di registrazione di questo driver. Il primo messaggio sembra essere un abort (codice 12) per un "sottocodice" 0303 che non è elencato. Il secondo messaggio è un reset (codice 11) per un motivo che non è chiaro. Se potessi determinare cosa significano 0303 e 0d01, sarebbe davvero utile.

So che 4 dischi in un RAID6 a 5 dischi sono un array incompleto. Sto pianificando di copiare il contenuto del vecchio disco nell'array al termine dell'integrazione del 4 ° disco e quindi aggiungere anche il vecchio disco all'array.

— Chris Smith
fonte

5

Probabilmente la tua scommessa migliore è un problema hardware tra i tuoi dischi e fino al tuo controller di raas incluso. Consiglio di provare:

Eseguire eventuali strumenti diagnostici dal fornitore / i se disponibili
Controllare / riposizionare / sostituire i cavi
rimuovere i componenti hardware e sostituire l'hardware nella catena che collega i dischi al controller del raid, incluso il controller stesso (vale a dire, per te, provare qualcos'altro rispetto al raid integrato della scheda madre).

Ne avevo uno su due identici Dell PowerEdge R515 che davano messaggi molto simili (i registri si riempivano periodicamente di messaggi mpt2sas0, anche se non ho i codici numerici esatti). La diagnostica avviabile di Dell li ha rilevati come "errori hardware" e la sostituzione del backplane RAID sas ha risolto il problema.

Quando stavo indagando, non sono riuscito a trovare una risorsa completa sul significato dei vari codici di errore mpt2sas0. Ho il sospetto che potrebbero anche essere specifici del fornitore dell'hardware (qualcuno che ne sappia di più su SAS deve confermare o negare questo). Quindi i tuoi codici di errore potrebbero significare qualcosa di molto diverso, ma se SMART è pulito è difficile immaginare altre buone ragioni per mpt2sas0 per segnalare i codici di errore.

Questi errori possono essere molto gravi. Il mio R515 ha funzionato apparentemente OK con questi messaggi per una settimana con un raid 6 di Ubuntu Linux a 12 dischi, ma poi ha espulso improvvisamente tutti i 12 dischi dall'array come rotto (!)

Anche nel mio caso, SMART per tutti i dischi era completamente pulito. Un buon controllo è un test di autodiagnosi intelligente: smartctl -t long /dev/sdXe quindi controllare i risultati circa un giorno dopo con smartctl -l selftest /dev/sdX. Se tutto va bene, il test dovrebbe dire Completede la LBA_first_errcolonna dovrebbe essere vuota.

— Rickard Armiento
fonte

Nota: il controller RAID (HBA davvero) è già una scheda separata. Il controller SATA integrato funziona bene. Ho un cavo SFF-8087 sostitutivo in ordine, dovrebbe essere qui entro domani. Questo è il mio principale sospettato a questo punto.

— Chris Smith,

Il cattivo cavo era il problema! Li ho sostituiti entrambi (due porte SFF) con alcuni cavi di qualità superiore e da allora non ho più avuto problemi! Accetto la tua risposta poiché è la più lunga e suggerisce un cavo difettoso. PS Ho sicuramente fatto i lunghi test SMART; nessun problema su nessuno dei dischi.

— Chris Smith,

È bello sapere che hai riscontrato il problema. Grazie per aver accettato.

— Rickard Armiento,

Per me è davvero strano incontrare questo problema prima anche nel caso della piattaforma Dell PowerEdge. Stesso risultato il problema era con i cavi ...

— Mazeryt,

3

Caspita.

Questo sembra indicare che 0x31120303 è un ripristino del bus a causa di uno dei tuoi dispositivi sotto carico pesante. Dice anche che non devi preoccuparti. (Haha, sì, giusto.)

Ciò indica che questi messaggi di registro stanno accadendo perché uno dei tuoi dispositivi impiega troppo tempo a rispondere ai comandi. Questo dice la stessa cosa e indica anche che si verifica sotto carico pesante.

Sebbene questa non sia una risposta completa, si spera che ti indichi in una direzione utile.

— Michael Hampton
fonte

Ho visto alcuni di questi post ma non sono mai riuscito a trovare il messaggio esatto che stava ricevendo. Si è rivelato essere un cattivo cavo SFF-8087-> SATA. Grazie per l'aiuto!

— Chris Smith,

0

Questo significa che hai qualche errore sul disco, è un disco SATA in un controller SAS da LSI e a causa dell'errore sono state interrotte tutte le richieste in sospeso.

Nella maggior parte dei casi hai un errore medio sul disco che è il trigger per questo errore. Questo errore di per sé non significa un errore medio e dovrai controllare i registri per altri suggerimenti per trovare qual è l'origine dell'errore del disco originale.

Versione leggermente più elaborata su: http://blog.disksurvey.org/blog/2014/03/27/sata-handling-of-medium-errors-log-info-0x0x31080000/

— Anche Baruch
fonte

Post interessante, grazie per averlo condiviso! SATA è un protocollo scadente ma i dischi sono economici e fanno ciò di cui ho bisogno. Il messaggio non è riapparso da quando ho sostituito il cavo difettoso.

— Chris Smith,

1

Altre decodifiche di LSI Loginfo possono essere trovate attraverso un'utilità che ho creato per decifrarlo: blog.disksurvey.org/blog/2014/08/10/decoding-lsi-loginfo-codes

— Baruch Anche