BSOD 0x09c su 50 macchine SuperMicro


8

Per un progetto abbiamo 50 server tutti dotati (generalmente) dello stesso hardware. Il problema che abbiamo qui è molto serio e si verifica su tutte le macchine. Nonostante il grande impegno e il contatto con i produttori e gli sviluppatori di software, tutti si indicano l'un l'altro e si rifiutano persino di darmi un'idea di ciò che sta succedendo.

Prima lasciami descrivere l'installazione. Questo è hardware "servergrade". Per la mia prima esperienza, il servergrade è la più grande delusione della mia vita.

  • SuperMicro X10SDV-8C + -LN2F
  • Intel Xeon D-1540 (incorporato nella scheda madre)
  • Custodia 1U progettata su misura o custodia originale SuperMicro
  • PSU server 480 watt o PSU originale SuperMicro 200 watt
  • SSD Samsung Evo 850 da 500 GB
  • DDR4-2133 ECC o NON-ECC da 32 GB (ma non miscelati nello stesso server)
  • GPU DDR3 da 4 GB Asus GT730
  • La GPU è montata con una riser card PCIe (non a nastro), senza nome dalla Cina o originale SuperMicro

In esecuzione sul sistema - Windows Server 2012 R2 Enterprise - VMWare Workstation 12 - Attività di gestione intensiva della GPU della macchina virtuale - Questo sistema è disponibile, non c'è alcun over / underclocking

Sintomi - BSOD casuale 0x09c (aka Machine_Check_Exception): a volte il sistema funziona per una settimana senza problemi, a volte si arresta in modo anomalo dopo soli 10 minuti, ma la maggior parte delle volte viene eseguito per alcune ore.

Già provato / controllato:

  • BIOS aggiornato all'ultima versione (vorrei pensare ora che questo ha migliorato il tempo di stabilità del sistema, ma avrebbe potuto essere casuale).
  • Windows aggiornato all'ultima versione.
  • VMWare aggiornato all'ultima versione.
  • Scambiato tutti i componenti e provato ogni opzione diversa, anche provato un desktop ATX PSU e M.2 SSD.
  • Installato tutti i sistemi da zero con Ubuntu. Non ho familiarità con Linux e non ho mai visto un BSOD Linux e non l'ho ancora fatto poiché i sistemi server sono senza testa e l'ho provato nel controller di dominio. RISULTATO: il sistema si bloccherebbe e dopo il riavvio Linux ha segnalato un arresto anomalo XORG (relativo alla GPU).
  • Modificata l'impostazione della GPU nel BIOS su "Above 4G", il resto del BIOS è l'impostazione predefinita di fabbrica.

Anche informativo:

  • I sistemi si trovano in un datacenter. Temperatura, aria, potenza e rete sono ottimali.
  • Le temperature sono ben al di sotto del massimo di fabbrica
  • Abbiamo la stessa identica configurazione software in esecuzione su computer desktop (con hardware desktop). Questo sistema può funzionare bene con 1 su 100 dei nostri PC che si bloccano ogni mese.
  • Ho contattato VMWare, diciamo che si tratta di un problema hardware
  • Ho contattato SuperMicro, in realtà non dicono nulla tranne alcune cose e hanno già provato e anche questo potrebbe essere ancora un problema di software.

Siamo disperati qui. L'applicazione che eseguiamo per fortuna è in qualche modo ridondante. Se un server e le macchine virtuali sono in calo, non è un problema del genere, altri server assumeranno il carico entro 5 minuti, ma a questo ritmo mi viene richiesto di essere online tutto il giorno per riavviare i server.

Ho una grande conoscenza dell'hardware ma questo va oltre, ci sto cercando tutto il giorno per oltre un mese provando ogni sorta di cose diverse. Il fatto che queste schede madri siano utilizzate con provider di hosting su larga scala mi fa sospettare che la scheda su se stessa sia ok. Questo non è sicuramente un problema hardware specifico per RMA poiché tutte e 50 le schede hanno gli stessi sintomi. L'unica cosa diversa con noi è la GPU. Questo in combinazione con l'esperimento Linux mi fa sospettare che questo sia sicuramente qualcosa sulla corsia PCIe. La GPU stessa è stabile su mobo desktop. Nonostante la sua grande capacità di memoria, questa è una piccola GPU che non consuma molta energia. Sospetterei le riser card cinesi, ma poi usiamo anche riser certificati SuperMicro e non mostrano alcun miglioramento.

Sono molto disperato di trovare una soluzione qui. Questo inizierà con la determinazione della causa esatta. Siamo disposti a pagare una generosa ricompensa a un esperto che può analizzare alcune discariche e darci maggiori dettagli (o ancora meglio, una soluzione).

Cordiali saluti,

Simon


Conosco un po 'questa tavola, ne ho una anch'io ... Ci sono troppe parti mobili qui e troppe poche spiegazioni su cosa siano. A che serve VMware Workstation? Quale applicazione viene eseguita in essi? Come viene trasferita la GPU alle VM?
Michael Hampton,

Le macchine virtuali eseguono un'azienda Windows che richiede un certo carico di GPU. Non posso approfondire ulteriormente questo aspetto. Questa è VMWare Workstation, la GPU è virtualizzata. Anche questo non dovrebbe importare, funziona esattamente lo stesso su hardware desktop senza problemi.
user349749

È importante perché non lo si esegue su hardware desktop!
Michael Hampton,

2
Sospetterei un'incompatibilità tra le tue schede madri e le tue GPU. Per fortuna, potrebbe essere qualcosa che può essere corretto nel BIOS, ma non ci scommetterei molto su di esso. Dato che questo è riproducibile con un kernel Linux di serie, proverei a ottenere maggiori informazioni sul panico del kernel che probabilmente accade.
Legge 29

Ciò che funziona all'interno della VM non ha importanza. Potrebbe essere il rendering del porno o forse è un logaritmo per trovare una cura per gli aiuti. Tutto ciò che conta è un carico GPU standard. @ Law29; È esattamente come mi sento. Linux non mi ha dato il panico del kernel, credo. Il server non si arrestava in modo anomalo, ma solo la GUI.
user349749,

Risposte:


2

Bene, questo è super in ritardo, immagino che il problema sia stato risolto da questo punto? In entrambi i casi 0x9C di solito significa un errore hardware MCE, I nostri sistemi GPU eseguivano Linux come sistema operativo host che riporta questi errori un po 'più dettagliati di Windows.

Ad ogni modo, questi erano spuntati casualmente per noi su hardware simile prodotto da HP qualche tempo fa, finendo per essere una fornitura di energia insufficiente alla GPU. In particolare il 75W che dovrebbe essere fornito dalla stessa porta PCIe.

Lo abbiamo confermato con un multimetro su una scheda breakout PCIe. La tensione è diminuita quando le schede di rete GPU e 10Gbe sono state colpite duramente allo stesso tempo. Mentre la scheda madre era in grado di erogare 75 W allo slot x16, la sezione di erogazione dell'alimentazione ha avuto un po 'di difficoltà quando le altre schede consumavano energia.

Il riser può essere sospetto qui e cadere la tensione su carichi di corrente elevati.


0

Grazie per la tua risposta. Sono passati 3 anni. Supermicro ha rifiutato di aiutarci in ogni modo possibile. Abbiamo inviato più macchine (esattamente come costruite da noi). Secondo loro li hanno stressati per settimane e non si sono mai schiantati.

Per quanto riguarda il riser, lo stesso errore si verifica con la GPU direttamente nello slot.

Supermicro continua a dare la colpa a VMWare, qualcosa a cui ero incline a credere fino a quando non ho messo le mani sulla loro nuova versione della stessa scheda. Senza alcun commento da parte di Supermicro, la scheda con lo Xeon D-1540 è stata aggiornata con uno Xeon D-1541 subito dopo pochi mesi. La nuova scheda è sostanzialmente la stessa cosa per la CPU più recente (anche la stessa velocità leggermente superiore). La scheda aggiornata dispone anche di un'intestazione del ventilatore aggiuntiva.

Queste schede non si bloccano più. Con lo stesso carico funzioneranno per mesi senza problemi. Ho anche clonato macchine qui, eseguono esattamente l'hardware e il software di quelli che si sono schiantati.

Questo tipo di conferma il mio sospetto. Supermicro sa che c'è un problema con le schede ma non vuole dirmi perché perché ho finito con quasi 100 di queste schede inutili a causa degli incidenti. Il loro non è mai stato e RMA o risolto nemmeno l'aggiornamento del BIOS per questo, quindi deve essere stato qualcosa sulla scheda.

Inutile dire che questa è stata la mia prima e ultima volta con Supermicro. Questo potrebbe accadere a qualsiasi marca di corso, ma il supporto era sotto zero.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.