Come si monitora un server di monitoraggio?


14

Quindi eseguiamo Groundworks (con Nagios) su CentOS per monitorare i nostri vari server e processi. Ho impostato per inviare automaticamente e-mail e SMS quando le cose raggiungono uno stato di AVVISO o CRITICO. Normalmente funziona perfettamente. Tuttavia, due volte abbiamo avuto problemi con Postfix su quel server in cui Postfix decide di interrompere l'invio di e-mail. L'ultima volta è durata 4 giorni perché nessuno di noi l'ha notato.

Questo mi porta a una domanda importante: come devo monitorare il mio server di monitoraggio?


5
Quis custodiet ipsos custodes?
James L

Eh. Giovenale. Ben giocato.
Organicveggie,

Chi osserva i guardiani? : D
Florent Courtay,

1
@organicveggie, Un server di monitoraggio è anche un server ... Quali problemi incontreresti utilizzando un server di monitoraggio per monitorare un server di monitoraggio?
Pacerier,

Risposte:


12

Con un secondo server di monitoraggio, ovviamente. Il secondo può essere molto più semplice, poiché tutto ciò che deve fare è monitorare il primo. E dovrebbe essere monitorato a sua volta dal principale sistema di monitoraggio.

Se il tuo gruppo fa parte di un'organizzazione più grande con infrastrutture IT separate, potresti essere in grado di prendere accordi affinché il servizio di monitoraggio di un altro gruppo controlli il tuo.

Puoi anche assicurarti che il server mandi un messaggio "va bene" ogni giorno e prendere l'abitudine di cercarlo. (È efficace solo se non sei già sopraffatto dai messaggi di routine, ovviamente.)


14

Altre persone suggeriscono di inviare messaggi regolari dicendo che le cose vanno bene, ma personalmente non sono d'accordo. Il monitoraggio dovrebbe essere silenzioso a meno che non ci sia un problema e non dovrebbe mai fare affidamento sul fatto che un utente si accorga che qualcosa non va, come "Oh, non ricevo l'e-mail giornaliera da alcuni giorni". Soprattutto se hai più di una persona che risponde agli avvisi, ognuno potrebbe pensare che l'altro abbia già rimosso il messaggio "Sto bene" ogni giorno.

Abbiamo un servizio esterno (di cui ce ne sono centinaia, ma utilizziamo worm ) per eseguire controlli HTTP sul nostro server di monitoraggio per assicurarci che sia attivo e possa raggiungere Internet. Questa è la nostra principale preoccupazione per il monitoraggio. Quindi il nostro server Nagios monitora tutti i nostri server Nagios client.

Ma hai sollevato un buon punto. Probabilmente dovremmo aggiungere un URL HTTP che controlla la coda postfix e se mostra un numero insolito di messaggi, il che probabilmente significa che ne ha uno in coda, quindi emettere un avviso. Un'altra opzione sarebbe quella di utilizzare diversi metodi per gli avvisi, ad esempio un agente di consegna SMS non SMTP e SMTP che attualmente utilizziamo.

Nel nostro caso, però, non ricordo che il server di posta sia mai morto. Ovviamente, tutto quel server di posta utilizzato è l'invio di avvisi Nagios, quindi la configurazione è molto semplice e non cambia quasi mai.


2
I messaggi OK regolari non sono così utili: non è possibile condizionare in modo affidabile una persona per compiere un'azione in assenza di uno stimolo.
Tim Williscroft,

@Tim: Siamo spiacenti, ma "assenza di uno stimolo" non descrive la situazione in cui non viene ricevuta un'e-mail anticipata. In tal caso, credo che sarei "stimolato" a indagare sul perché il messaggio non è arrivato. Ma forse sono solo io. :)
Steven lunedì

1
Penso di scrivere usando termini psicologici che non significano cosa pensi che significhino. La psicologia comportamentale e la psicologia dell'aviazione hanno molto da dire agli ingegneri di sistema. Il campo è stato sviluppato pesantemente durante la seconda guerra mondiale per convincere gli equipaggi di 18-20 anni a far volare aerei all'avanguardia senza schiantarsi e avere ancora attenzione per i loro veri compiti militari. Ecco perché gli aerei hanno una luce di avvertimento principale, non una luce "tutto ok". TLDR (non credo che questa parola significhi ciò che pensi significhi)
Tim Williscroft il

1
Sono fermamente convinto che i sistemi non dovrebbero fare rumore se non c'è qualcosa che richiede attenzione da parte di un essere umano. Abbiamo un'attenzione limitata e i computer possono facilmente sopraffarci con piccoli segnali acustici come "Sono vivo!". Inoltre, le cose che accadono che non indicano problemi mettono le persone nella mente di ignorare le cose. Lavoro molto duramente per assicurarmi che quando qualcosa arriva a un essere umano, è qualcosa che devono davvero vedere. Lavoro con qualcuno che ha tutti i tipi di tronchi che arrivano da lui ogni giorno che rivede. Certo, è così impegnato che non può uscire a pranzo ...
Sean Reifschneider il

1
Concordo sul fatto che i servizi non dovrebbero inviare troppi messaggi o che le persone inizino rapidamente a ignorarli. Tuttavia, se il sistema di monitoraggio è configurato correttamente, non dovresti ricevere molti messaggi. Naturalmente, abbiamo una politica sul riconoscimento degli avvisi di Groundworks / Nagios, che interrompe efficacemente i messaggi per un periodo di tempo. Se si tratta di un'interruzione a lungo termine, disabilitiamo il monitoraggio per il sistema o il servizio. Di conseguenza, un messaggio quotidiano "I'm Alive" è in realtà abbastanza ragionevole.
Organicveggie,

5

Ovviamente anche il tuo postfix dovrebbe essere monitorato, ma questo è un altro argomento;)

Uso il plug-in Nagios Checker per Firefox , è sempre in esecuzione in una barra di stato su qualsiasi computer che uso regolarmente.

Inoltre ho uno script personalizzato sull'host esterno che esegue il ping dell'host nagios e invia SMS se non risponde ai ping.

Finora (5+ anni) ha funzionato bene (bussare al legno).


2

Per il monitoraggio del monitoraggio del server (nagios nel nostro caso), il piano gratuito o di base di Pingdom o alertfox funziona alla grande.


Buoni suggerimenti. Ma in questo caso, il nostro server di monitoraggio non è accessibile al di fuori del firewall. Quindi Pingdom e Alertfox non funzionano davvero per noi.
Organicveggie,

1

Prima cosa: lascia che invii messaggi "I am alive" una o due volte al giorno. In secondo luogo, eseguo una vecchia macchina solo per questo scopo, che ha un altro modem GSM, un piccolo UPS ecc. E una connessione dedicata (diretta) al server di monitoraggio primario. Questo aiuta anche con il terzo punto: assicurati di controllare regolarmente lo stato dei tuoi sistemi di monitoraggio. Il piccolo sistema di monitoraggio ausiliario mostra continuamente la pagina di stato del sistema principale nel mio ufficio.


1

Se il server di monitoraggio è raggiungibile da Internet, è necessario che sia monitorato da un provider esterno (ad esempio websitepulse et. Al.).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.