Idealmente, con l'installazione il più semplice possibile e senza la necessità di riavviare i server. Principalmente DL380 G5's
se aiuta.
Idealmente, con l'installazione il più semplice possibile e senza la necessità di riavviare i server. Principalmente DL380 G5's
se aiuta.
Risposte:
Ciò dipende leggermente dai sistemi operativi in esecuzione sui server, ma in generale è possibile ottenere avvisi dai server HP ProLiant e dai controller RAID Smart Array.
L'elenco completo dei driver e del supporto software per i tuoi sistemi DL380 G5 è elencato qui .
SNMP e una soluzione di monitoraggio sono l'approccio migliore ... Ma puoi aumentarlo con alcuni degli strumenti HP. HP offre HP Systems Insight Manager , disponibile per il download e fornito con i server. Questo è l'ideale per raccolte di server. Se stai cercando avvisi una tantum senza creare un'infrastruttura di gestione o monitoraggio, puoi semplicemente installare HP Management Agents (aka ProLiant Support Pack ).
Per i sistemi Linux autonomi, gli agenti invieranno trap via e-mail. Di solito configurerò il pacchetto di supporto con impostazioni predefinite o un pacchetto personalizzato , quindi modificherò /opt/hp/hp-snmp-agents/cma.conf
e cambierò la trapemail
linea in modo che punti all'indirizzo del destinatario:
########################################################################
# trapemail is used for configuring email command(s) which will be
# executed whenever a SNMP trap is generated.
# Multiple trapemail lines are allowed.
# Note: any command that reads standard input can be used. For example:
# trapemail /usr/bin/logger
# will log trap messages into system log (/var/log/messages).
########################################################################
trapemail /bin/mail -s 'HP Insight Management Agents Trap Alarm' systems@1234.net
Se si esegue Linux e non si desidera installare l'intera suite di gestione HP, è possibile sviluppare uno script attorno all'utilità cciss_vol_status per interrogare lo stato del controller / disco. Vedi anche: Installazione degli agenti HP su OpenFiler
ProLiant DL360 G7
server e HP SIM configurato per il monitoraggio.
Dai un'occhiata a HP Insight Manager
https://www.hpe.com/us/en/product-catalog/detail/pip.489496.html#
Credo che dovrebbe funzionare con i tuoi server.
Ho usato il programma leggero che @ewwite ha menzionato nella sua risposta: cciss_vol_status
Se segui le istruzioni di INSTALL allegate, lo script viene inserito /usr/local/bin/cciss_vol_status
.
Ecco uno script wrapper che utilizzo per grep l'output di cciss_vol_status e inviare un'e-mail se un array ha uno stato FAILED.
#!/bin/bash
#
# Check status of RAID volumes on HP Smart Array controllers. Send an email
# alert if any volumes have a FAILED status.
#
status=`/usr/local/bin/cciss_vol_status /dev/sd*`
# email lock file
lockfile=/tmp/raid.check.hp.smartarray.lock
# how often to send an email (minutes)
_notification_freq=59
_host=`hostname`
# To: email
_toemail=root
# create email lock file
[ ! -f ${lockfile} ] && /bin/touch ${lockfile}
if echo $status | grep -q FAILED
then
# make sure we haven't sent a notification in the last X minutes
if test `find ${lockfile} -mmin +${_notification_freq}`
then
echo -e "${status}" | /bin/mail -s "System Alert! RAID failure on ${_host}" ${_toemail}
# update lock file mod time
/bin/touch ${lockfile}
fi
fi
Chiama lo script sopra in cron. Eseguo il controllo ogni due minuti:
*/2 * * * * /usr/local/bin/raid.check.hp.smartarray.sh
Usiamo HP System Insight Manager per verificare se i nostri HP sono attivi e funzionanti, ma nulla oltre. Ho scoperto che l'agente Linux è eccessivo per noi, dal momento che abbiamo in atto altre soluzioni di monitoraggio, quindi questo script sopra serve bene al suo scopo specifico.
AGGIORNARE
Solo un suggerimento per la risoluzione dei problemi nel caso in cui ti imbatti in questo. Questo script si è rivelato utile stamattina quando ho ricevuto un'e-mail su un array fallito con:
Limite sporco cache raggiunto
Il dispositivo è andato in sola lettura e non era visibile in /proc/partitions
. Ho riavviato il server e ho visto questi messaggi all'avvio:
Unità logiche disabilitate a causa della possibile perdita di dati. Selezionare "F1" per continuare con le unità logiche disabilitate Selezionare "F2" per accettare la perdita di dati e riattivare le unità logiche
Ho selezionato F2 e il RAID andava bene e montato all'avvio.
installare smartmontools. Email PRIMA che un'unità non funzioni.