Test hardware automatizzato dei server HP?


9

Come parte del provisioning server eseguiamo HP Insight Diagnostics per testare l'hardware. Questo è un processo manuale. Esiste un modo per automatizzare l'esecuzione di Insight Diagnostics?

Esiste il software hpdiags con l'opzione "-rd:" "Esegui una diagnosi di tutti i dispositivi diagnostici". Dal mio test questo non fa molto (legge solo le informazioni SMART dai dischi). Qualcuno ha avuto più fortuna con esso?

Hardware: BladeCenter c7000 con blade HP ProLiant BL460c, DL360s.

Sistema operativo: ESXi e Ubuntu.


2
La risposta breve è che non mi preoccupo di farlo in ambienti di grandi dimensioni. Il monitoraggio e la diagnostica di bordo sono sufficienti. Ma puoi fornire alcune informazioni sui modelli di server che stai utilizzando? E forse i sistemi operativi coinvolti.
ewwhite,

Ho aggiornato il biglietto con le informazioni richieste.
Mark Wagner,

Stai installando versioni specifiche di HP di ESXi? Installi gli agenti di gestione HP sui sistemi Ubuntu? Quali generazioni sono i server? G6? G7? Gen8?
ewwhite,

Gli agenti di gestione HP sono installati su ESXi e Ubuntu. I server sono Gen8 e saranno Gen9.
Mark Wagner,

8
I updated the ticket with the requested info- Mi ha fatto ridere. Questo non è l'helpdesk.
joeqwerty,

Risposte:


8

Quindi, farò un'altra domanda:

Perché è necessario eseguire la diagnostica hardware di HP Insight sui server prima del provisioning?

Nel mio commento sopra, ho indicato che c'è poco da guadagnare facendo questo in modo preventivo in ambienti HP ProLiant di grandi dimensioni. Dovrei chiarire i miei pensieri su questo ...

In ordine di frequenza decrescente, diamo un'occhiata ai tipi di problemi che incontrerai in genere:

  • Array e dischi di archiviazione : il controller RAID segnalerà al sistema operativo, ai registri, allo SNMP, alla posta elettronica, all'ILO e accenderà graziose luci per indicare lo stato.

  • RAM : il processo POST rileverà lo stato della RAM, nonché il sistema che riporta al sistema operativo, registri, SNMP, e-mail, ILO e l'accensione di un indicatore LED sul Systems Insight Display (SID) del pannello anteriore . Inoltre, non sono un fan dei processi di burn-in della RAM perché il rilevamento degli errori di questi sistemi è già robusto.

  • Termico e ventole : la temperatura del server e la velocità della ventola sono regolate dall'ILO. Esistono oltre 30 sensori di temperatura su questi sistemi , quindi il sistema di raffreddamento è estremamente efficiente. Questo riporta ancora al sistema operativo, ai registri, a SNMP, alla posta elettronica e al SID.

  • Alimentatore : lo stato dell'alimentatore viene segnalato al sistema operativo, ai registri, all'SNMP, alla posta elettronica e al SID, nonché a una spia luminosa effettiva sull'unità di alimentazione effettiva.

  • Stato generale : questo è facile da valutare a colpo d'occhio con il display SID, oltre al LED Salute interna e Salute esterna. Questo è riportato anche nei registri del server, SNMP, e-mail e ILO.

inserisci qui la descrizione dell'immagine

Non riesco a pensare a condizioni che si troverebbero prima della distribuzione e che non sarebbero / non potrebbero essere segnalate durante il runtime o dopo l'installazione del sistema operativo.

Il ciclo di diagnostica di solito non trova nulla quando viene eseguito su un sistema senza ovvi problemi precedenti. Ciò è dovuto principalmente al fatto che il server deve eseguire il POST e avviare l'utility o il firmware di Intelligent Provisioning per poter eseguire l'utilità.

Detto in altro modo, qualsiasi elemento che sarebbe un serio "SPOF" per il server probabilmente impedirebbe al sistema di eseguire l'autodiagnostica.

Gli elementi di errore più comuni sono ancora abbastanza robusti; i dischi devono essere in RAID e sostituibili a caldo. Anche i fan e gli alimentatori possono essere sostituiti a caldo. La tua RAM ha soglie ECC e ci sono opzioni di riserva online per la maggior parte delle piattaforme ProLiant. Non c'è nulla che sarai in grado di fare per indurre guasti in questi componenti eseguendo la diagnostica. Aggiungi il fatto che stai utilizzando custodie HP C7000 Blade, che hanno ridondanze interne e che l'incidenza di guasti dovrebbe essere piuttosto bassa.


Il problema è se (a) viene rilevato un errore dopo l'installazione del sistema operativo (ovvero il server è in produzione), (b) la riparazione non può essere eseguita online o il componente guasto è uno SPOF per il server e (c) il server è uno SPOF, quindi si verificheranno tempi di inattività (immediatamente o quando il sistema viene rimosso per la riparazione). Per impedire la conclusione è necessario prevenire una delle condizioni. Stavo cercando (a) rilevando l'errore prima della produzione. Apprezzo la tua completezza nel dettaglio delle capacità di segnalazione, ma sto cercando di prevenire la necessità di segnalarle in primo luogo perché non si verificano.
Mark Wagner,

Un ciclo di diagnostica HP probabilmente non troverà nulla, considerando che il server deve eseguire il POST e avviare l'utilità o il provisioning intelligente per eseguire la diagnostica. Gli elementi di errore più comuni sono piuttosto robusti; dischi, ventole e alimentatori sono sostituibili a caldo, la RAM ha soglie ECC. Non c'è niente che sarai in grado di fare per indurre guasti in questi componenti.
ewwhite,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.