Quale strumento usi per monitorare i tuoi server?


187

Per un elenco più completo degli strumenti di monitoraggio e delle loro funzionalità, consulta questa pagina di Wikipedia .

Come afferma la domanda, quali sono gli strumenti più comunemente usati per questo compito e quali sono i loro punti di forza e di debolezza?


Quale piattaforma è in esecuzione il tuo server?
Glenn Slaven,

1
I miei server eseguono Debian Lenny, ma la domanda non si concentra principalmente sul monitoraggio UNIX poiché molti strumenti avranno probabilmente una forma di supporto multipiattaforma.
Aron Rotteveel,

Forse usano strumenti diversi ma dal punto di vista generale del sistema finisci per fare sempre la stessa cosa sui diversi sistemi. È solo un po 'di scripting per estrarre l'ultimo bit di dati che desideri. Considererei "strumenti" in questo contesto l'istanza di registrazione (server di monitoraggio) non il plug-in / script effettivo che sputa i dati
serverhorror

Mi piace anche monitorare le applicazioni (prestazioni, disponibilità, ecc.). Gli strumenti di monitoraggio sembrano avere uno spettro con la loro capacità di monitorare l'hardware da un lato e la loro capacità di monitorare le applicazioni dall'altro. Hardware <----- + -----> Applicazione
Nathan Hartley,

Risposte:


136

Ho usato Nagios in passato con successo. È molto estensibile (oltre 200 componenti aggiuntivi), relativamente facile da usare e molti report. Un aspetto negativo sarebbe la configurazione iniziale.


10
Nagios funziona alla grande per monitorare tutti i tipi di host (Windows, Linux, Router, Switch, ecc.). Raccomando di usare uno strumento di configurazione come fruttato o Lilac per alleviare il dolore della configurazione. NSClient ++ nelle finestre di Windows e nagios-statd nelle cose di Linux per monitorare i processi in esecuzione, l'utilizzo del disco, ecc.
TonyB,

Sfortunatamente Nagios richiede un agente su scatole di Windows - in passato ho trovato l'agente notoriamente incline a morire casualmente.
PowerApp101,

Abbiamo esaminato sia Nagios che Zabbix per il nostro monitoraggio. Zabbix ha vinto dopo una breve valutazione, principalmente a causa della facilità di distribuzione e funzionalità (ad esempio, Zabbix include la rappresentazione grafica come funzione principale mentre Nagios richiede un plug-in). Ho scoperto che configurare Nagios è una seccatura.

GroundWork OpenSource ha un'appliance di monitoraggio della rete che utilizza Nagios al suo interno e semplifica l'installazione / gestione
Rog

12
C'è una nuova forcella nagios chiamata icinga. Non è ancora arrivato, ma i loro obiettivi sembrano promettenti. icinga.org
cstamas,

70

Cacti è un ottimo frontend web-based per RRDTool , che fornisce grafici e statistiche molto utili. RRDTool è la parte che raccoglie dati da più sistemi e monitora una vasta gamma di dati tecnici.

Stiamo usando quella soluzione cactus / RRDTool per monitorare i sistemi Unix e Windows. Abbiamo molte metriche utili tra cui carico, utilizzo CPU / RAM, spazio HD, accesso utenti, traffico di rete, processi in esecuzione e così via.

Ulteriori informazioni sui cactus sono disponibili in Che cos'è il cactus? pagina.


Cactus è una soluzione divertente che ha un bell'aspetto e ha un ottimo prezzo (gratuito). Tuttavia, l'installazione di dispositivi di rete è una PITA ed è stata scarsamente documentata. Potrebbe essere meglio ora, ma non mi impegnerei fino a quando non avrai fatto le tue ricerche.
Chris Porter,

57

Personalmente, adoro Munin, che è molto facile da installare e per cui è possibile scrivere plugin in quanto ha un'architettura molto semplice. Esistono già molti plugin per tutti gli scopi che puoi immaginare, quindi probabilmente non dovrai nemmeno scrivere plugin in primo luogo.

Fornisce inoltre splendidi grafici e l'opzione per configurare avvisi (molto basilari).


2
Sono anche un grande fan di Munin. Ha il supporto per l'integrazione con Nagios (in modo da poter eseguire entrambi) e il supporto per tutti i gusti comuni di Unix. Non credo che ci sia alcun supporto per il monitoraggio di un nodo Windows, tuttavia è scritto in Perl, quindi sebbene possa essere non banale, dovrebbe essere certamente possibile .
John Dalton,

2
@John. I nodi Windows sono supportati tramite munin-node-win32 che è un nodo Munin nativo o tramite SNMP proprio come qualsiasi host.
Steve Schnepp,

34

Zabbix . È open source e ragionevolmente semplice da configurare e personalizzare. Abbiamo molti script di monitoraggio personalizzati che si alimentano nel server zabbix, ma si occupa di centralizzare quei dati, visualizzarli in modo appropriato, notifiche (e-mail, messaggistica istantanea, SMS, twitter, ecc.) E così via.


2
Stiamo anche usando Zabbix e lo troviamo abbastanza potente e configurabile. Abbiamo testato sia Zabbix che Nagios e alla fine abbiamo optato per Zabbix perché mentre Nagios sembra avere una buona reputazione, è un po 'una seccatura da installare e molte funzionalità provengono dai plugin piuttosto che presenti nell'applicazione principale (la rappresentazione grafica è un buon esempio di questo, lo ottieni gratuitamente con Zabbix).

3
Preferisco Zabbix perché offre flessibilità in termini di rappresentazione grafica e mappatura della tua infrastruttura (in termini di disponibilità) e un modo flessibile di monitoraggio.
Andrioid,

29

Ho fatto il roll-out di Spiceworks presso la nostra azienda e lo troviamo un ottimo strumento non solo per il monitoraggio dei server ma per tutto il resto della rete.

Fa cose come l'inventario automatico e il monitoraggio personalizzato per inviare e-mail in caso di problemi (ad esempio: la stampante ha il 10% di inchiostro o il disco rigido di questo server ha il 20%).

Il rovescio della medaglia sarebbe probabilmente la densità di informazioni per computer, non sbagliare ha MOLTI dati per macchina ma per cose come server in cui potresti volere molte statistiche potresti aver bisogno di usare un altro strumento.

EDIT: oh, ho già detto che il suo modello di business si basa sul fatto che è gratuito per sempre.


Spiceworks fa molte cose fantastiche e GRATUITE.

3
SpiceWorks ha una comunità davvero grande che si sovrappone anche a ServerFault. Sarà interessante vedere l'interazione tra le comunità. Uso anche SpiceWorks. Strumento fantastico.
Scott Alan Miller,

Ora sto usando questo in base alla tua raccomandazione. Strumento eccellente.
Marko Carter,

Lo usiamo nel nostro lavoro. È abbastanza impressionante. Il solo inventario dell'hardware, per non parlare del software, vale la pena dare un'occhiata da solo.
Terry,

L'ultima volta che ho usato Spiceworks (versione 3 qualcosa), non aveva modo di aggiungere o modificare componenti hardware come monitor, schede video, ecc. Li avrebbe rilevati, ma spesso in modo errato. Quindi sto ancora usando GLPI + OCSNG che odio .
Boden,

18

Smokeping non solo controlla la disponibilità di vari server e servizi, ma tiene anche traccia della loro latenza fornendo grafici di facile utilizzo, di bell'aspetto e rapidi da visualizzare .

È disponibile un'ampia gamma di plug-in di misurazione della latenza. Se conosci un po 'di Perl, è facile crearne uno tuo per qualsiasi esigenza esotica.

Le grandi installazioni trarranno vantaggio dal sistema Master / Slave per la misurazione distribuita.

Un sistema di avviso altamente configurabile ti aiuterà a notare i problemi prima che inizino a colpire gli utenti o si trasformino in gravi interruzioni.

Smokeping è gratuito e OpenSource Software scritto in Perl da Tobi Oetiker, il creatore di MRTG e RRDtool


Fumare è bello vedere com'è la tua rete
Rory,

Il fumo è straordinario per visualizzare la latenza.
James,

15

OpenNMS viene utilizzato dove lavoro per monitorare più di mille macchine Linux. Monitoriamo l'hardware di ogni macchina e le applicazioni in esecuzione su di essi.


+1 per OpenNMS, lo usiamo anche al lavoro per monitorare migliaia di macchine e interfacce. Abbiamo molti sistemi operativi diversi e siamo in grado di monitorarli tutti usando OpenNMS.
Steve K,

non è la mia prima scelta, ma molto utile

com'è con l'aggiunta di MIB per il nuovo hardware?
slovacco,

OpenNMS ha già molte statistiche snmp nella sua configurazione predefinita in modo che possa scoprire automaticamente e iniziare a creare grafici immediatamente. Le nuove statistiche SNMP sono piuttosto facili da aggiungere, basta dare un nome a RRD, OID e tipo di dati e metterlo in un gruppo per il tipo di dispositivo a cui si applica la stat.
mtinberg,

15

Zenoss Core è di qualche utilità, lo stiamo usando (da circa un anno) per il monitoraggio leggero di server, switch di rete e UPS.

Zenoss Core è un premiato prodotto di monitoraggio IT open source che gestisce efficacemente la configurazione, l'integrità e le prestazioni di reti, server e applicazioni attraverso un unico pacchetto software integrato.


Se usi la versione gratuita di Zenoss Core, sii pronto a fare molte modifiche SNMP MIB. Ho anche scoperto che si rifiutava fermamente di raccogliere i dati del sistema operativo su alcuni dei miei server, ed è sorprendentemente difficile da configurare per attività semplici come la verifica del contenuto di una pagina Web.
gareth_bowles,

Può simpatizzare con i problemi MIB, ma il controllo della pagina web può essere fatto con i plugin Nagios su Zenoss.
Gimel

12

Nagios è fantastico poiché è gratuito e ci sono molti plugin per questo. Tuttavia l'interfaccia utente e la configurazione sono molto difficili.

È esattamente l'opposto in pro / contro che è anche fantastico è Microsoft System Center Operations Manager (SCOM) che non è gratuito, ha meno plugin ma l'installazione e la configurazione sono brillanti e facili.

Devo ammettere che se fossi in una società principalmente Microsoft, avessi requisiti di dipendenza molto elevati (cioè non potessi permettermi di interrompere il monitoraggio) o dovessi pensare di convincere gli sviluppatori a lavorare con esso, allora SCOM sarebbe la mia raccomandazione su Nagios.


12

Ho usato:

  • Nagios : richiede una configurazione della riga di comando vecchio stile, non carina, ma robusta e funzionale. È stato sostituito da:
  • Zenoss - richiede molto meno footwork per essere installato, ha una variante commerciale. Una volta in esecuzione, il resto è controllato tramite un browser. Molto potente, ma richiede un po 'di lavoro MIB se si utilizza la versione gratuita.
  • Intermapper - programma commerciale, costoso se hai molti nodi da monitorare. Sembra essere scritto in Java (nel bene o nel male).
  • Spiceworks : non ho provato l'ultima versione. Le versioni precedenti avevano bisogno di un po 'più di umph sotto il cofano per farlo rispondere, ma per il resto funziona bene. La versione gratuita viene fornita con annunci pubblicitari.

Utilizziamo ampiamente Intermapper.
sysadmin1138

Uso anche InterMapper. Il client della console è scritto in Java. Il server è scritto in Python. Postgres viene utilizzato come database back-end per l'aggregazione e il reporting dei dati.
lsiu,

11

Usiamo AlertFox da alcune settimane e ne siamo molto contenti. Non solo controlla i nostri tempi di attività e le nostre prestazioni, ma monitora anche il carrello degli acquisti, l'accesso degli utenti e altre parti critiche del sito Web tramite script di transazione (basati su iMacros).

Per il nostro monitoraggio interno (spazio su disco, ecc.) Utilizziamo Nagios .


10

PRTG Network Monitor - non posso che elogiare abbastanza. Front-end Web eccezionale e particolarmente utile per il monitoraggio di router (larghezza di banda, ecc.) E altri dispositivi tramite SNMP e misurazione del tempo di attività per gli SLA, ecc.

www.paessler.com


9

Come persona di Windows, mamma. Stiamo cercando di eseguire l'aggiornamento a Systems Center Operations Manager (SCOM) ma non sarà necessario fino a quando non inizieremo a distribuire Windows 2008.


Uso anche la mamma. Lo adoro e lo odio allo stesso tempo.
spoulson,

SCOM è un'ottima piattaforma di monitoraggio per ambienti Enterprise basati su Windows. Il vero genio qui sono i Management Pack rilasciati dagli stessi gruppi di prodotti Microsoft (questo fa parte dei MS Common Engineering Criteria secondo cui ogni prodotto ha un MP SCOM entro 90 giorni dall'RTM). Ottenere consigli e conoscenze dai team dei prodotti stessi può migliorare notevolmente la capacità di un reparto operativo di mantenere le cose in esecuzione e in salute senza disturbare gli amministratori più senior per ogni piccola cosa.
Kevin Colby,

8

Faccio parte di un progetto di aggiornamento del monitoraggio operativo. Abbiamo avuto vari fornitori sul posto per presentare alcuni sistemi a grande dollaro e mescolati in alcune alternative più economiche da confrontare.

Uno dei quali è Hyperic , che è anche disponibile come soluzione open source gratuita. Sono rimasto colpito dalle sue capacità e estensibilità fornite per gli agenti personalizzati.


Sebbene non sia facile per quanto riguarda le risorse, è sicuramente un ottimo strumento di monitoraggio!
Vincent De Baere,

8

Per il monitoraggio delle statistiche (utilizzo della memoria, caricamento, attività mysql, attività apache, ecc.) Utilizzo Munin . Immediatamente traccia già molte cose e traccia grafici per diversi intervalli di tempo (ultime 24 ore, ultimi 7 giorni, ultimo mese, anno scorso). Attraverso i plugin è possibile monitorare ancora più cose. Il suo output sono pagine HTML con grafici piuttosto carini.

Munin ha un'architettura master / nodo: i nodi raccolgono statistiche su un server e il master memorizza i dati e produce HTML e grafici.

Uso Monit per tenere traccia dei processi in esecuzione e per riavviarmi o avvisarmi quando si presentano determinate condizioni configurabili (elevato carico della CPU, elevato utilizzo della memoria, nessuna risposta HTTP, ecc.) Monit può anche monitorare cose più generali su un server, come CPU caricamento, utilizzo della memoria, stato del disco rigido o utilizzo del disco.

Monit deve essere configurato per ogni servizio o hardware che si desidera monitorare e come rispondere quando qualcosa va storto. Le opzioni più utilizzate sono di non fare nulla, inviare un'e-mail di avviso o riavviare il servizio.

Monit è eccezionale quando funziona, ma a volte non riesce ad avviare, arrestare o riavviare un servizio e non ci sono molte informazioni diagnostiche disponibili per dirti cosa è andato storto. Ciò significa che non sai se il problema riguardava il tuo servizio o la configurazione di Monit, che funziona con un ambiente minimale simile a cron.

Entrambi gli strumenti sono disponibili per impostazione predefinita sulla maggior parte delle distribuzioni Linux.


8

Mi sorprende che nessuno ha parlato logwatch o logcheck per i server Linux - Salva un tonnellata di tempo di lettura log !!


Questi strumenti non ti daranno davvero metriche e leggibilità a lungo termine delle tendenze della tua infrastruttura. Sono una bella aggiunta ma non mi affiderei solo a loro. Afaik "logwatch" è in qualche modo malvagio in quanto riferirà solo di errori di cui parli invece di "logcheck" in cui dici allo strumento cose buone conosciute e riporterà tutto il resto.
serverhorror,


7

Il nostro progetto utilizza Ganglia per i nostri oltre 100 cluster di nodi. Uno dei motivi per cui lo usiamo è perché è lo strumento di monitoraggio fornito con Rocks .

Per noi è importante avere un sovraccarico molto basso su ciascun nodo in modo che siano disponibili per il calcolo quante più risorse possibili. Ganglia ci offre una buona panoramica del cluster e ci consente di eseguire il drill-down dei singoli nodi, se necessario. Oltre a sapere cosa sta succedendo in questo momento, possiamo vedere abbastanza bene cosa è successo nell'ultima ora, giorno, settimana, mese e anno. I grafici di varie statistiche sono di base e funzionali.


6

Tutto dipende da cosa intendi per "monitor"!

  • È (sistema o servizio) disponibile? Usiamo nagios .
  • Cosa sta facendo? Usiamo munin per i server linux e cactus per quasi tutto il resto, anche se a volte è difficile configurare ...
  • Che cosa ha fatto Usiamo syslog-ng per concentrare i syslog in un unico posto e quindi eseguire quotidianamente uno script di controllo dei log personalizzato per inviare report via e-mail. Stiamo cercando qualcosa di simile per i server Windows.

5

Un nuovo concorrente sulla scena per verificare la concorrenza con Cacti e le soluzioni basate su RRDTool è Graphite ( http://graphite.wikidot.com/ )

RRDTool viene sostituito con un archivio di supporto chiamato Whisper. I documenti offrono una panoramica abbastanza buona del perché differisce e mi piace molto la CLI per la rappresentazione grafica ad hoc quando indaga su qualcosa.


4

Usiamo (e mi piace) WhatsUp di Ipswitch per la nostra rete Windows relativamente piccola. È facile da configurare e relativamente facile da gestire e sa come gestire i server Windows e le cose standard.

Per reti più grandi, reti non orientate a Windows o reti con molte cose varie, consiglio vivamente OpenNMS . Software OpenNMS se gratuito e la società è più che felice di vendere servizi di supporto e implementazione. Capita anche di essere gestito da un mio amico molto acuto del college!


4

Per coloro a cui non piace l'interfaccia web di Nagios c'è NPC , un plugin per Cacti che rende l'interfaccia utente di Nagios disponibile all'interno di Cacti, ma con un aspetto migliore (ajax ecc.).

Legge da un database fornito da NDO2DB , che è un ottimo modo per avere la tua infrastruttura disponibile all'interno di un database per l'uso in script e altri strumenti.


4

Attualmente utilizziamo PRTG di Paessler . È eccellente Nessun agente richiesto, eccellente interfaccia web Ajax, registrazione storica, rappresentazione grafica, WMI, ecc. Esiste una versione di 10 sensori disponibile gratuitamente, ma ne abbiamo procurati un paio per la versione enterprise. Soldi ben spesi.



4

Se hai fretta e desideri uno strumento rapido per monitorare il tuo server MS, usa il monitor delle prestazioni per Windows, imposta un registro contatori con un modello di monitoraggio personalizzato e un programma personalizzato (ad esempio: raccogliere dati per 5 minuti ogni ora). Quindi scaricare Microsoft LogParser e Codeplex Performance Analysis of Logs (PAL) Tool ( http://pal.codeplex.com/ ) per eseguire il crunch del log del contatore. PAL genererà un ottimo rapporto documentato con collegamenti a possibili documenti / strumenti per la risoluzione dei problemi.


3

Uso una combinazione di Solarwinds, schede delle prestazioni del server VMware e script personalizzati.

Solarwinds Orion Network Performance Monitor è quello che uso con il nostro sistema Windows. amministratori sui miei server web. Ci sono ancora delle utili metriche sulle app in esecuzione, ma ha buone informazioni su cose di base a livello di scatola (disco, rete, CPU).

Per i miei ospiti VMware, adoro le schede delle prestazioni.

Per i miei server Sun, quando ho bisogno di qualcosa che non è disponibile in Solarwinds (perché il nostro amministratore non lo ha aggiunto o cosa), scrivo script personalizzati (di solito in Perl) per monitorare cose come la salute dei mirror, l'utilizzo dello scambio, ecc.

Mi piacerebbe avere di più su Solarwinds, ma ci sono solo 26 ore al giorno (o almeno così crede il mio capo) quindi trovo che possa essere un po 'limitante ...


3

Usiamo OpsView , che gira su Nagios. L'interfaccia utente web ci aiuta a distribuire nuove definizioni di monitoraggio host senza dover consentire l'accesso SSH, fornisce visualizzazioni pubbliche e registra valori storici. Questo è utile per il provisioning e la determinazione di linee di base adeguate.



2

Mi dispiace dirlo ma ho finito per usare molti script personalizzati. Sebbene lontano dall'ideale dubito che ci sia una soluzione più comune.


Ci sarà sempre bisogno di script personalizzati!
Techboy,

2

Abbiamo scritto il nostro software di monitoraggio. Il nostro codice non è sofisticato come un pacchetto commerciale, ma non avevamo bisogno di molte funzionalità. Scrivere il nostro era più semplice che investigare altri pacchetti e imparare come usarli. Il codice fa esattamente quello che vogliamo ed è facile da estendere.


2
Penso che sia importante riflettere sulle implicazioni di una decisione come questa. Scrivere qualcosa da zero potrebbe non essere un grande sforzo, ma la manutenzione lungo la strada è un orso.
Adam,

Potrei immaginare che la manutenzione sia un problema, ma non lo è stato per noi, anche se gestiamo questo sistema da anni. Poiché la base di codice è piccola e familiare, è stato facile per noi aggiungere nuove funzionalità in base alle esigenze. Mantenere una soluzione commerciale potrebbe anche essere un problema nel tempo, innestare pezzi di nuovi fornitori quando il prodotto originale non fa tutto il necessario, ecc.
John D. Cook
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.