Ho un nuovo sistema HP ProLiant DL360 G7 che presenta un problema di difficile riproduzione. Il server si blocca in modo casuale al " Potere e calibrazione termica in corso ... " schermo durante il processo POST . Questo di solito segue un avvio / riavvio a caldo dal sistema operativo installato.
Il sistema si blocca indefinitamente a questo punto. L'emissione di un ripristino o di un avvio a freddo tramite i controlli di alimentazione ILO 3 rende l'avvio del sistema normalmente senza incidenti.
Quando il sistema si trova in questo stato, l'interfaccia ILO 3 è completamente accessibile e tutti gli indicatori di integrità del sistema vanno bene (tutti verdi). Il server si trova in un data center climatizzato con connessioni di alimentazione alla PDU. La temperatura ambiente è di 17 ° C / 64 ° F. Il sistema è stato inserito in un ciclo di test dei componenti di 24 ore prima della distribuzione senza errori.
Il sistema operativo principale per questo server è VMWare ESXi 5. Inizialmente abbiamo provato 5.0 e successivamente una build 5.1. Entrambi sono stati distribuiti tramite avvio PXE e kickstart. Inoltre, stiamo testando con installazioni baremetal di Windows e Red Hat Linux.
I sistemi HP ProLiant hanno un set completo di opzioni BIOS. Abbiamo provato le impostazioni predefinite oltre al profilo statico ad alte prestazioni. Ho disabilitato la schermata di avvio e in quel punto ho solo un cursore lampeggiante rispetto allo screenshot sopra. Abbiamo anche provato alcune "best practice" VMWare per la configurazione del BIOS . Abbiamo visto un advisory di HP che sembra evidenziare un problema simile , ma non ha risolto il nostro problema specifico.
Sospettando un problema hardware, ho fatto inviare al venditore un sistema identico per la consegna in giornata. Il nuovo server era una build completamente identica ad eccezione dei dischi. Abbiamo spostato i dischi dal vecchio server al nuovo. Abbiamo riscontrato lo stesso problema di avvio casuale sull'hardware sostitutivo.
Ora ho entrambi i server in esecuzione in parallelo. Il problema si verifica casualmente su warm-boot. Gli stivali freddi non sembrano avere il problema. Sto esaminando alcune delle impostazioni del BIOS più esoteriche come disabilitare Turbo Boost o disabilitare completamente la funzione di calibrazione dell'alimentazione. Potrei provare questi, ma non dovrebbero essere necessari.
qualche idea?
--modificare--
Dettagli del sistema:
- DL360 G7 - 2 CPU esadecimali X5670
- 96 GB di RAM (12 x 8 GB DIMM a bassa tensione)
- 2 dischi rigidi SAS da 15k 15k da 146 GB
- 2 alimentatori ridondanti da 750 W.
Tutto il firmware aggiornato dall'ultima versione del Service Pack HP per ProLiant DVD.
Chiamando HP e trascinando l'interwebz, ho visto menzioni di una cattiva interazione con ILO 3, ma questo succede anche con il server su una console fisica. HP ha anche suggerito una fonte di alimentazione, ma si trova in un rack per data center che alimenta con successo altri sistemi di produzione.
C'è qualche possibilità che questa potrebbe essere una scarsa interazione tra DIMM a bassa tensione e alimentatori da 750 W? Questo server dovrebbe essere una configurazione supportata.