Identificazione delle cause del riavvio del server


8

Ho un HP ProLiant DL380p Gen8 che esegue VMWare ESXi 5.5 . Si è riavviato a intervalli apparentemente casuali nelle ultime 24 ore. Esiste una sola VM in esecuzione e, anche se la spengo, l'host si riavvierà comunque. Il server non sta esaurendo la memoria o lo spazio su disco e, per quanto ne so, non si sta surriscaldando. Ho provato a guardare i file di registro, ma c'è così tanto da vedere.

Quali sono i passaggi più importanti nella diagnosi di questo problema (tra cui quali impostazioni controllare, quali file guardare, quale messaggio specifico potrebbe indicare un problema, dovrei iniziare a estrarre memoria, c'è un CD diagnostico che fa tutto questo per me, ecc.) ?

So che questa è una domanda molto ampia. Sono felice di fornire i file di registro, se necessario, per renderlo più specifico per la mia situazione.

Risposte:


9

Ecco alcuni suggerimenti.

  • Il tuo ILO è collegato e configurato? Dirà esattamente cosa sta succedendo con il sistema. Si prega di rivedere il registro ILO4.

  • Visualizza il registro IML del sistema (disponibile tramite la scheda "hardware" di ILO o vSphere)

  • Ci sono indicatori o messaggi di errore sullo schermo durante l'incidente o al POST?

  • Stai utilizzando l'installazione HP specifica di ESXi (include driver e strumenti aggiuntivi)

  • Quale versione e numero di build di ESXi stai utilizzando?

  • Se la macchina virtuale in esecuzione è un guest Windows 2012 o 2008, è possibile che sia presente un bug del driver NIC .

  • Controlla i tuoi collegamenti elettrici. Avete doppi alimentatori? Riposizionare i cavi di alimentazione uno alla volta.

  • Controlla l'array di LED di System Insight nella parte anteriore del server per determinare se esiste un problema di integrità interno.

inserisci qui la descrizione dell'immagine


2
E CHIAMA IL VENDITORE PER IL SUPPORTO. Puoi e dovresti dedicare un po 'di tempo a investigare te stesso, ma se questo è un server importante, dovrebbe essere sotto un accordo di supporto.
mfinni,

Non avevo installato l'OIL, grazie mille per il suggerimento. Una volta installato, ho controllato il registro e ho trovato questo System Overheating (Temperature Sensor 1, Location Ambient, Temperature 46C). Lo riparerò subito.
nachito,

Ciò significa che la stanza del server o l'ambiente è troppo caldo. Ciò comporterebbe anche una luce ROSSA sul LED della temperatura nell'immagine sopra. A seconda di quando è stato distribuito questo server, è possibile che si desideri eseguire anche aggiornamenti del firmware sul sistema.
ewwhite,

Penso che ciò che sta accadendo sia che lo scarico di un altro rack sia troppo vicino all'aspirazione per questa macchina, poiché la stanza stessa è una bella 72F. Quando ho tenuto d'occhio la macchina durante il riavvio, ho visto il flash di OverTemp per una frazione di secondo. Non sono sorpreso di non averlo mai visto prima, se
sbatti le

3
@nachito Spero che tu sappia che l'ILO e il server possono
inviarti
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.