Strumento migliore per il monitoraggio di backup, ecc. E trend delle statistiche da tali dati [chiuso]


9

Ho fatto alcune ricerche su nagios, opennms e zenoss ma non sono sicuro di aver trovato quello che cercavo.

La principale forza trainante per me in questo momento è essere in grado di monitorare i backup. Ciò include mysql, mssql ed eventualmente alcuni backup del file system.

Abbiamo uno strumento che avvolge il processo di backup per questi diversi sistemi e raccoglie statistiche. Quindi, articoli come:

  • numero di database di cui è stato eseguito il backup
  • dimensione del file di backup db
  • dimensione del file di backup db compresso
  • tempo di fare il backup
  • tempo di zip file

Voglio essere in grado di A) ricevere notifiche se i lavori non vengono eseguiti secondo la pianificazione B) essere in grado di impostare soglie sulle statistiche che attiverebbero le notifiche C) Voglio essere in grado di tracciare e rappresentare graficamente le statistiche

Sto programmando di inviare queste informazioni all'applicazione di monitoraggio tramite un POST HTTP. In alternativa, l'applicazione di monitoraggio potrebbe estrarla anche da un file di registro.

Tuttavia, avremo altri processi con altre statiche "arbitrarie" (dal punto di vista del sistema di monitoraggio) che vorranno monitorare e fare tendenza, quindi la flessibilità è molto importante.

Lo strumento o gli strumenti dovrebbero anche essere in grado di eseguire il monitoraggio generale e le tendenze delle interfacce di rete, il carico del server, ecc. Una volta avviato il monitoraggio del backup, vorremmo includere anche questi elementi.

Grazie.

Follow-up :

Ho deciso di provare quanto segue nell'ordine indicato:

  • Zabbix: sembrava più uno "sportello unico" rispetto agli altri ed era facile da installare in Ubuntu Lucid RC
  • Opsview
  • Nagios w / nagvis, pnp4nagios, nagiosgraph
  • cactus con plugin npc
  • Munin: un po 'sfregiato dalla semplicità, ma questo potrebbe rivelarsi una benedizione a lungo termine

Spedirò una volta che avrò preso una decisione, potrebbe volerci un po 'prima che ciò accada.

Risposte:


4

Invece di scrivere la tua soluzione di monitoraggio, ti consiglio vivamente di utilizzare uno strumento esistente in modo che tutte le funzionalità di monitoraggio e avviso di base siano già implementate. Se scegli Nagios, otterrai gratuitamente il monitoraggio di base del server e delle risorse di rete, e i seguenti plugin ti daranno la maggior parte del resto di cui hai bisogno:

check_file_ages_in_dirs ti dirà se esistono i file di backup; ecco un post sul blog che ho scritto con alcuni esempi di base.

check_file può monitorare le dimensioni e il contenuto dei file (usando regex), in modo da poter generare le statistiche di backup su un file e monitorarle.

L'unica cosa che non otterrai da Nagios è la tendenza e la rappresentazione grafica; Consiglio di guardare Munin per questo, in quanto è semplice da configurare e, come Nagios, ha pile di plugin forniti.


Solo per chiarimenti, non scriverei il mio strumento di monitoraggio. La domanda è ottenere consigli per gli strumenti di monitoraggio / trend che si integreranno con il framework di backup / script che ho creato.
Randy Syring,

4

questo dovrebbe essere abbastanza facile da configurare con zabbix.

impostare soglie personalizzate (e molto potenti) è facile: puoi scrivere qualsiasi espressione che ti piace, quindi qualcosa come "avvisami se più di 3 di questi 5 server non hanno avuto un backup riuscito" è possibile. è inoltre possibile utilizzare 6 diversi livelli di gravità ed escalation per ottenere notifiche e avvisi flessibili.

zabbix ha una capacità di memorizzazione e visualizzazione dei dati ridotta - tutti i dati sono archiviati in un database e per rappresentare graficamente una singola metrica non è necessaria alcuna configurazione - si ottiene semplicemente un grafico "gratis". per lo stoccaggio a lungo termine e le tendenze di un'ora vengono calcolate.

per quanto riguarda il trasferimento dei dati sui backup in zabbix, esistono diverse possibilità. puoi leggerlo dai file, puoi lanciare comandi personalizzati, puoi inviarlo dalla macchina monitorata usando l'utilità della riga di comando zabbix_sender ... e potrebbero esserci alcuni altri approcci possibili.

l'estensione è semplice: qualsiasi comando personalizzato che restituisce dati può essere utilizzato per raccogliere, archiviare e visualizzare tali dati.

ovviamente, è possibile il monitoraggio generale di sistemi operativi, applicazioni, dispositivi snmp e ipmi e così via.


1

esecuzione

i backup vengono orchestrati da backupninja . lo uso solo un wrapper per i miei script bash - per avere un unico registro di backup. ogni script inizia con

 function handle {
         echo Error
         error problem occured
 }
 set -e
 trap handle ERR

quindi ottengo un errore nei registri ogni volta che uno dei comandi [es. mysqldump o rsync] fallisce.

tutti i backup finiscono nel repository rdiff, quindi ho n giorni di incrementi.

tutti i backup vengono trasmessi utilizzando rsync al server di archiviazione centrale.

sul server di archiviazione tutti i backup vengono verificati quotidianamente e dopo aver verificato con esito positivo i dati sul disco locale vengono copiati su un'unità USB esterna.

verifica

backupninja.log su tutti i server è monitorato da nagios. controllo se contengono solo messaggi DEBUG e INFO. qualsiasi altra cosa fa scattare l'allerta.

ogni backup 'tocca' un file di test, la cui presenza e freschezza viene monitorata sul server del repository di backup centrale con nagios.

inoltre i dump sql più critici vengono controllati per le loro dimensioni [non solo per la freschezza] e la completezza [ad es. alla fine dei dump mysql mi aspetto un nuovo timestamp in

- Deposito completato il 22-04-2010 alle 23:21:02

tutti gli archivi rdiff vengono verificati quotidianamente prima che i dati vengano sincronizzati sull'unità USB e poi di nuovo dopo essere stati sincronizzati. quindi anche se il trasferimento notturno viene interrotto avrò un repository coerente solo su disco USB. il risultato del controllo viene registrato nel file il cui contenuto e la cui freschezza sono controllati dai nagios.

i dischi USB vengono ruotati settimanalmente e archiviati offline, per ogni evenienza. questo potrebbe essere eccessivo per grandi quantità di dati, ma funziona bene per ~ 300 GB di file / dump che cambiano lentamente.

tendenze

io uso un semplice plugin munin personalizzato per tracciare la dimensione di diff / dati per ogni repository rdiff.

il tempo necessario per l'esecuzione può essere verificato nei registri di backupninja ma per ora non mi preoccupo.


Grazie per la risposta. Ho già un framework che gestisce l'esecuzione di backup (e altre attività), che raccoglie statistiche, quindi backupninja sarebbe eccessivo. Nagios sembra essere un consenso e quindi munin o cactus alla tendenza.
Randy Syring,

1

nagios può fare tendenza, ma è necessario generare perfdata ( http://nagios.sourceforge.net/docs/1_0/perfdata.html ) nel plug-in. Se usi un pnp4nagios http://docs.pnp4nagios.org/pnp-0.4/start, tutto sarà rappresentato per te.

Ho scoperto che l'uso di opsview http://www.opsview.org/ è molto più semplice della configurazione di nagios e pnp4nagios. Specialmente se sei l'unico amministratore esperto di Linux al lavoro. Opsview è un nagios con un ottimo webui che consente quasi tutte le azioni dal browser web. Poiché si tratta di nagios, puoi utilizzare tutti i plug-in nagios che hai utilizzato in passato. Ottimo strumento.


Grazie per il commento, penso di aver escluso opsview per qualche motivo, ma sulla base della tua raccomandazione, potrei finire per provarlo prima di saltare nei nagios.
Randy Syring,

0

Nagios per gli avvisi e Cactus per la rappresentazione grafica oltre ad alcuni script shell o perl faranno esattamente quello che vuoi. Combinandoli insieme, potresti fare praticamente qualsiasi cosa, a seconda della quantità di sforzo che sei disposto a fare.


Pensi che sarebbe meglio "spingere" le statistiche sui nagios su HTTP o lasciarle estrarre dai file di registro?
Randy Syring,

0

Raccomando OpenNMS . Il pacchetto è completamente open source, attivamente supportato e regolarmente migliorato. Per riferimento, ho trovato nelle loro informazioni di configurazione della wiki per monitorare Symantec Backup Exec .

Dal loro sito Web ..

OpenNMS è la prima piattaforma al mondo di gestione della rete di livello enterprise sviluppata con il modello open source. Consiste in un progetto open source supportato dalla comunità, nonché in un'organizzazione commerciale di servizi, formazione e supporto.

Divulgazione: non ho alcun interesse commerciale qui, ma il proprietario di The OpenNMS Group , la "organizzazione di servizi commerciali, formazione e supporto" di cui sopra è un mio amico.


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.