Come posso ricevere i miei server HP per e-mail in caso di guasto di un'unità?

11

Idealmente, con l'installazione il più semplice possibile e senza la necessità di riavviare i server. Principalmente DL380 G5'sse aiuta.

— DrZaiusApeLord
fonte

Peccato che non siano G7 o potresti usare HP Insight Manager.

— Tom O'Connor,

I tuoi server eseguono Windows o Linux?

— Tom O'Connor,

Quali sistemi operativi stai eseguendo su questi server?

— ewwhite,

Sono tutti 2003 o 2008 sia alla vaniglia che a R2. Ho giocato con la SIM ma non è stato in grado di parlare con i miei G5.

— DrZaiusApeLord,

La SIM dovrebbe essere comunque compatibile con G5 ProLiants. Avevi gli agenti installati quando hai provato prima?

— ewwhite,

16

Ciò dipende leggermente dai sistemi operativi in esecuzione sui server, ma in generale è possibile ottenere avvisi dai server HP ProLiant e dai controller RAID Smart Array.

L'elenco completo dei driver e del supporto software per i tuoi sistemi DL380 G5 è elencato qui .

SNMP e una soluzione di monitoraggio sono l'approccio migliore ... Ma puoi aumentarlo con alcuni degli strumenti HP. HP offre HP Systems Insight Manager , disponibile per il download e fornito con i server. Questo è l'ideale per raccolte di server. Se stai cercando avvisi una tantum senza creare un'infrastruttura di gestione o monitoraggio, puoi semplicemente installare HP Management Agents (aka ProLiant Support Pack ).

Per i sistemi Linux autonomi, gli agenti invieranno trap via e-mail. Di solito configurerò il pacchetto di supporto con impostazioni predefinite o un pacchetto personalizzato , quindi modificherò /opt/hp/hp-snmp-agents/cma.confe cambierò la trapemaillinea in modo che punti all'indirizzo del destinatario:

########################################################################
# trapemail is used for configuring email command(s) which will be
# executed whenever a SNMP trap is generated.
# Multiple trapemail lines are allowed.
# Note: any command that reads standard input can be used. For example:
#             trapemail /usr/bin/logger
#       will log trap messages into system log (/var/log/messages).
########################################################################
trapemail /bin/mail -s 'HP Insight Management Agents Trap Alarm' systems@1234.net

Se si esegue Linux e non si desidera installare l'intera suite di gestione HP, è possibile sviluppare uno script attorno all'utilità cciss_vol_status per interrogare lo stato del controller / disco. Vedi anche: Installazione degli agenti HP su OpenFiler

— ewwhite
fonte

un modo elegante per testare un avviso per un guasto dell'array RAID, oltre a estrarre un'unità dallo slot? Ho un paio di ProLiant DL360 G7server e HP SIM configurato per il monitoraggio.

— Banjer,

Non che io sappia. Gli agenti di Insight sicuramente funzionano. Se riesci a vedere lo stato dell'array tramite l'utility hpacucli e sai che stai ricevendo avvisi in HP SIM, penso che sia giusto presumere che le cose funzionino.

— ewwhite,

5

Dai un'occhiata a HP Insight Manager

https://www.hpe.com/us/en/product-catalog/detail/pip.489496.html#

Credo che dovrebbe funzionare con i tuoi server.

— ckliborn
fonte

3

Ho usato il programma leggero che @ewwite ha menzionato nella sua risposta: cciss_vol_status

Se segui le istruzioni di INSTALL allegate, lo script viene inserito /usr/local/bin/cciss_vol_status.

Ecco uno script wrapper che utilizzo per grep l'output di cciss_vol_status e inviare un'e-mail se un array ha uno stato FAILED.

#!/bin/bash
#
# Check status of RAID volumes on HP Smart Array controllers.  Send an email
# alert if any volumes have a FAILED status.
#
status=`/usr/local/bin/cciss_vol_status /dev/sd*`

# email lock file
lockfile=/tmp/raid.check.hp.smartarray.lock
# how often to send an email (minutes)
_notification_freq=59
_host=`hostname`
# To: email
_toemail=root

# create email lock file
[ ! -f ${lockfile} ] && /bin/touch ${lockfile}

if echo $status | grep -q FAILED
then
    # make sure we haven't sent a notification in the last X minutes
    if test `find ${lockfile} -mmin +${_notification_freq}`
    then
        echo -e "${status}" | /bin/mail -s "System Alert! RAID failure on ${_host}" ${_toemail}

        # update lock file mod time
        /bin/touch ${lockfile}
    fi
fi

Chiama lo script sopra in cron. Eseguo il controllo ogni due minuti:

*/2 * * * * /usr/local/bin/raid.check.hp.smartarray.sh

Usiamo HP System Insight Manager per verificare se i nostri HP sono attivi e funzionanti, ma nulla oltre. Ho scoperto che l'agente Linux è eccessivo per noi, dal momento che abbiamo in atto altre soluzioni di monitoraggio, quindi questo script sopra serve bene al suo scopo specifico.

AGGIORNARE

Solo un suggerimento per la risoluzione dei problemi nel caso in cui ti imbatti in questo. Questo script si è rivelato utile stamattina quando ho ricevuto un'e-mail su un array fallito con:

Limite sporco cache raggiunto

Il dispositivo è andato in sola lettura e non era visibile in /proc/partitions. Ho riavviato il server e ho visto questi messaggi all'avvio:

Unità logiche disabilitate a causa della possibile perdita di dati. Selezionare "F1" per continuare con le unità logiche disabilitate Selezionare "F2" per accettare la perdita di dati e riattivare le unità logiche

Ho selezionato F2 e il RAID andava bene e montato all'avvio.

— Banjer
fonte

1

installare smartmontools. Email PRIMA che un'unità non funzioni.

— Stephan
fonte

2

~ 30% delle volte. SMART non è un proiettile d'argento.

— HopelessN00b,