Per un progetto abbiamo 50 server tutti dotati (generalmente) dello stesso hardware. Il problema che abbiamo qui è molto serio e si verifica su tutte le macchine. Nonostante il grande impegno e il contatto con i produttori e gli sviluppatori di software, tutti si indicano l'un l'altro e si rifiutano persino di darmi un'idea di ciò che sta succedendo.
Prima lasciami descrivere l'installazione. Questo è hardware "servergrade". Per la mia prima esperienza, il servergrade è la più grande delusione della mia vita.
- SuperMicro X10SDV-8C + -LN2F
- Intel Xeon D-1540 (incorporato nella scheda madre)
- Custodia 1U progettata su misura o custodia originale SuperMicro
- PSU server 480 watt o PSU originale SuperMicro 200 watt
- SSD Samsung Evo 850 da 500 GB
- DDR4-2133 ECC o NON-ECC da 32 GB (ma non miscelati nello stesso server)
- GPU DDR3 da 4 GB Asus GT730
- La GPU è montata con una riser card PCIe (non a nastro), senza nome dalla Cina o originale SuperMicro
In esecuzione sul sistema - Windows Server 2012 R2 Enterprise - VMWare Workstation 12 - Attività di gestione intensiva della GPU della macchina virtuale - Questo sistema è disponibile, non c'è alcun over / underclocking
Sintomi - BSOD casuale 0x09c (aka Machine_Check_Exception): a volte il sistema funziona per una settimana senza problemi, a volte si arresta in modo anomalo dopo soli 10 minuti, ma la maggior parte delle volte viene eseguito per alcune ore.
Già provato / controllato:
- BIOS aggiornato all'ultima versione (vorrei pensare ora che questo ha migliorato il tempo di stabilità del sistema, ma avrebbe potuto essere casuale).
- Windows aggiornato all'ultima versione.
- VMWare aggiornato all'ultima versione.
- Scambiato tutti i componenti e provato ogni opzione diversa, anche provato un desktop ATX PSU e M.2 SSD.
- Installato tutti i sistemi da zero con Ubuntu. Non ho familiarità con Linux e non ho mai visto un BSOD Linux e non l'ho ancora fatto poiché i sistemi server sono senza testa e l'ho provato nel controller di dominio. RISULTATO: il sistema si bloccherebbe e dopo il riavvio Linux ha segnalato un arresto anomalo XORG (relativo alla GPU).
- Modificata l'impostazione della GPU nel BIOS su "Above 4G", il resto del BIOS è l'impostazione predefinita di fabbrica.
Anche informativo:
- I sistemi si trovano in un datacenter. Temperatura, aria, potenza e rete sono ottimali.
- Le temperature sono ben al di sotto del massimo di fabbrica
- Abbiamo la stessa identica configurazione software in esecuzione su computer desktop (con hardware desktop). Questo sistema può funzionare bene con 1 su 100 dei nostri PC che si bloccano ogni mese.
- Ho contattato VMWare, diciamo che si tratta di un problema hardware
- Ho contattato SuperMicro, in realtà non dicono nulla tranne alcune cose e hanno già provato e anche questo potrebbe essere ancora un problema di software.
Siamo disperati qui. L'applicazione che eseguiamo per fortuna è in qualche modo ridondante. Se un server e le macchine virtuali sono in calo, non è un problema del genere, altri server assumeranno il carico entro 5 minuti, ma a questo ritmo mi viene richiesto di essere online tutto il giorno per riavviare i server.
Ho una grande conoscenza dell'hardware ma questo va oltre, ci sto cercando tutto il giorno per oltre un mese provando ogni sorta di cose diverse. Il fatto che queste schede madri siano utilizzate con provider di hosting su larga scala mi fa sospettare che la scheda su se stessa sia ok. Questo non è sicuramente un problema hardware specifico per RMA poiché tutte e 50 le schede hanno gli stessi sintomi. L'unica cosa diversa con noi è la GPU. Questo in combinazione con l'esperimento Linux mi fa sospettare che questo sia sicuramente qualcosa sulla corsia PCIe. La GPU stessa è stabile su mobo desktop. Nonostante la sua grande capacità di memoria, questa è una piccola GPU che non consuma molta energia. Sospetterei le riser card cinesi, ma poi usiamo anche riser certificati SuperMicro e non mostrano alcun miglioramento.
Sono molto disperato di trovare una soluzione qui. Questo inizierà con la determinazione della causa esatta. Siamo disposti a pagare una generosa ricompensa a un esperto che può analizzare alcune discariche e darci maggiori dettagli (o ancora meglio, una soluzione).
Cordiali saluti,
Simon