HP ProLiant DL360 G7 si blocca nella schermata "Alimentazione e calibrazione termica"


41

Ho un nuovo sistema HP ProLiant DL360 G7 che presenta un problema di difficile riproduzione. Il server si blocca in modo casuale al " Potere e calibrazione termica in corso ... " schermo durante il processo POST . Questo di solito segue un avvio / riavvio a caldo dal sistema operativo installato.

inserisci qui la descrizione dell'immagine

Il sistema si blocca indefinitamente a questo punto. L'emissione di un ripristino o di un avvio a freddo tramite i controlli di alimentazione ILO 3 rende l'avvio del sistema normalmente senza incidenti.

Quando il sistema si trova in questo stato, l'interfaccia ILO 3 è completamente accessibile e tutti gli indicatori di integrità del sistema vanno bene (tutti verdi). Il server si trova in un data center climatizzato con connessioni di alimentazione alla PDU. La temperatura ambiente è di 17 ° C / 64 ° F. Il sistema è stato inserito in un ciclo di test dei componenti di 24 ore prima della distribuzione senza errori.

Il sistema operativo principale per questo server è VMWare ESXi 5. Inizialmente abbiamo provato 5.0 e successivamente una build 5.1. Entrambi sono stati distribuiti tramite avvio PXE e kickstart. Inoltre, stiamo testando con installazioni baremetal di Windows e Red Hat Linux.

I sistemi HP ProLiant hanno un set completo di opzioni BIOS. Abbiamo provato le impostazioni predefinite oltre al profilo statico ad alte prestazioni. Ho disabilitato la schermata di avvio e in quel punto ho solo un cursore lampeggiante rispetto allo screenshot sopra. Abbiamo anche provato alcune "best practice" VMWare per la configurazione del BIOS . Abbiamo visto un advisory di HP che sembra evidenziare un problema simile , ma non ha risolto il nostro problema specifico.

Sospettando un problema hardware, ho fatto inviare al venditore un sistema identico per la consegna in giornata. Il nuovo server era una build completamente identica ad eccezione dei dischi. Abbiamo spostato i dischi dal vecchio server al nuovo. Abbiamo riscontrato lo stesso problema di avvio casuale sull'hardware sostitutivo.

Ora ho entrambi i server in esecuzione in parallelo. Il problema si verifica casualmente su warm-boot. Gli stivali freddi non sembrano avere il problema. Sto esaminando alcune delle impostazioni del BIOS più esoteriche come disabilitare Turbo Boost o disabilitare completamente la funzione di calibrazione dell'alimentazione. Potrei provare questi, ma non dovrebbero essere necessari.

qualche idea?

--modificare--

Dettagli del sistema:

  • DL360 G7 - 2 CPU esadecimali X5670
  • 96 GB di RAM (12 x 8 GB DIMM a bassa tensione)
  • 2 dischi rigidi SAS da 15k 15k da 146 GB
  • 2 alimentatori ridondanti da 750 W.

Tutto il firmware aggiornato dall'ultima versione del Service Pack HP per ProLiant DVD.

Chiamando HP e trascinando l'interwebz, ho visto menzioni di una cattiva interazione con ILO 3, ma questo succede anche con il server su una console fisica. HP ha anche suggerito una fonte di alimentazione, ma si trova in un rack per data center che alimenta con successo altri sistemi di produzione.

C'è qualche possibilità che questa potrebbe essere una scarsa interazione tra DIMM a bassa tensione e alimentatori da 750 W? Questo server dovrebbe essere una configurazione supportata.


2
Un modo per eliminare i dischi come possibile causa? Qualche possibilità che puoi provare con alcuni dischi SAS o SATA alternativi?
ErnieTheGeek,

Sì, testato con un set di dischi noti nel secondo sistema. Corrono in parallelo.
ewwhite,

1
L'unica volta che l'ho mai visto è stato in un sistema (anche un DL360 G7) in cui stavo cercando di utilizzare una scheda non HP per fornire spazio di archiviazione. Quando ho avuto sia la scheda SmartArray che l'altra qui, lo ha fatto. Quando ho tirato fuori uno dei due, è passato. Questo non è un tuo problema, ma passo quello che ho incontrato.
sysadmin1138

1
Forse qualcosa legato alla rete? Prova a duplicare senza essere connesso alla rete.
ErnieTheGeek,

1
@TheCleaner Disabilitare il Dynamic Power Capping non è un'opzione sui server G7. È stato introdotto per la serie Gen8 ProLiant.
ewwhite,

Risposte:


43

Quindi, dopo aver inserito un terzo sistema nel mix e sperimentato lo stesso problema, abbiamo iniziato a mettere in discussione l'ambiente. Ho estratto una copia della Guida alla risoluzione dei problemi dei server HP ProLiant e ho trovato il diagramma di flusso dei problemi POST mostrato di seguito.

inserisci qui la descrizione dell'immagine

Eseguendo attentamente i passaggi nel grafico, ci siamo resi conto che l'unica costante su tutti i server era uno switch KVM collegato al carrello di arresto del data center. Questa era una KVM abilitata USB di classe consumer. Come per il nodo evidenziato nel diagramma di flusso, hai conosciuto una buona KVM? , Non ho potuto rispondere in modo conclusivo.

Quindi, abbiamo scollegato i server dallo switch KVM ed eseguito un avvio automatico, in sleep 300; rebootsequenza rc.local. I server non hanno avuto problemi con questo, indipendentemente dal normale DIMM, DIMM a bassa tensione, potenza dell'alimentatore, ecc.

Questo è stato tutto il risultato di una scarsa interazione con uno switch KVM USB. In virtù del fatto che questa era la console, ci avrebbe assicurato che avremmo visto l'errore se lo avessimo cercato. Self-fulfilling ...


2
Wow, è una buona idea! Sono contento che tu l'abbia capito.
nedm,

7
Corvo santo. +1 per domande e risposte. Buon lavoro; Probabilmente l'avrei trascurato. "Conosciuta bene"? Certo, si sa bene, funziona, no?
mfinni,

Grazie mille!!! era sicuramente la KVM. Basta scollegare il video e collegare direttamente il monitor e il server funziona di nuovo senza problemi. Dopo il caricamento del sistema operativo ho ricollegato il KVM. Penso che il problema sia stato causato quando ho toccato accidentalmente i cavi nella parte posteriore del server. Il sistema si è arrestato e reagisce solo a questo avviso.

1
Hai idea di come una KVM potrebbe causare questo?
TheLQ

@TheLQ La causa è stata un dispositivo KVM economico a livello di consumatore. Potrebbe essersi verificato anche un problema con la tastiera.
ewwhite,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.