Saluti,
Vorrei chiedere l'opinione collettiva e visualizzare sui sistemi di monitoraggio distribuiti, cosa usi e di cosa sei a conoscenza di quali potrebbero spuntare le mie caselle?
I requisiti sono piuttosto complessi;
Nessun singolo punto di errore. Veramente. Sono morto sul serio! Deve essere in grado di tollerare guasti a nodo singolo / multiplo, sia "principale" che "lavoratore" e si può presumere che nessuna posizione di monitoraggio ("sito") contenga più nodi o sia sulla stessa rete. Pertanto, questo probabilmente esclude le tradizionali tecniche HA come DRBD o Keepalive.
Logica distribuita, vorrei distribuire 5+ nodi su più reti, all'interno di più data center e in più continenti. Voglio la vista "Birds Eye" della mia rete e delle applicazioni dal punto di vista dei miei clienti, punti bonus per la logica di monitoraggio che non si impantanano quando hai più di 50 nodi o anche più di 500 nodi.
Deve essere in grado di gestire un numero abbastanza ragionevole di controlli host / di servizio, a la Nagios, perché le cifre del ballpark presuppongono 1500-2500 host e 30 servizi per host. Sarebbe davvero bello se l'aggiunta di più nodi di monitoraggio ti consentisse di ridimensionare in modo relativamente lineare, forse tra 5 anni potrei voler monitorare 5000 host e 40 servizi per host! Aggiungendo dalla mia nota sopra sulla "logica distribuita" sarebbe bello dire:
- In circostanze normali, questi controlli devono essere eseguiti su $ n o n% di nodi di monitoraggio.
- Se viene rilevato un errore, eseguire i controlli su un altro $ n o n% di nodi, correlare i risultati e quindi utilizzarli per decidere se sono stati soddisfatti i criteri per emettere un avviso.
Grafici e funzionalità di gestione. Dobbiamo tenere traccia dei nostri SLA e sapere se le nostre applicazioni "altamente disponibili" sono attive 24x7 è alquanto utile. Idealmente, la soluzione proposta dovrebbe essere in grado di riportare "out of the box" con un minimo faff.
Deve disporre di un solido sistema API o plug-in per lo sviluppo di controlli su misura.
Deve essere sensibile agli avvisi. Non voglio necessariamente sapere (via SMS, alle 3 del mattino!) Che un nodo di monitoraggio calcola che il mio router principale non funziona. Io non voglio sapere se una percentuale definita di loro sono d'accordo che qualcosa di strano sta succedendo;) In sostanza cosa sto parlando qui è la logica "quorum", o l'applicazione di sanità mentale di follia distribuito!
Sono disposto a prendere in considerazione opzioni sia commerciali sia open source, anche se preferirei evitare il software che costa milioni di sterline :-) Sono anche disposto ad accettare che potrebbe non esserci nulla là fuori che spunta tutte quelle caselle, ma volevo chiedere al collettivo che.
Quando si pensa al monitoraggio dei nodi e al loro posizionamento, tenere presente che la maggior parte di questi saranno server dedicati su reti di ISP casuali e quindi ampiamente fuori dalla mia sfera di controllo. Le soluzioni che si basano su feed BGP e altri aspetti complessi della rete probabilmente non sono adatte.
Devo anche sottolineare che in passato ho valutato, distribuito o utilizzato / personalizzato pesantemente la maggior parte degli aromi open source, inclusi Nagios, Zabbix e amici - non sono davvero strumenti cattivi, ma si riducono nel complesso " aspetto "distribuito", in particolare per quanto riguarda la logica discussa nella mia domanda e gli avvisi "intelligenti".
Felice di chiarire tutti i punti richiesti. Saluti ragazzi e ragazze :-)