In che modo * tu * segui e documenta la manutenzione ordinaria?


10

Quale software o sistema utilizzate per errore del server per ricordarvi di eseguire la manutenzione ordinaria? Come si fa a controllare e registrare i vari elementi che si prevede di controllare? Hai un documento di processo interno? Hai cron mail ogni settimana con promemoria per controllare i log di sistema?

Inoltre, lavori in team per eseguire la manutenzione del sistema e, in tal caso, come coordini chi eseguirà la manutenzione?

Se si utilizza un sistema di tracciamento di bug / problemi per inserire attività, è necessario che un processo cron inserisca attività ricorrenti?

Risposte:


5

Attualmente sto utilizzando Request Tracker ( http://www.bestpractical.com/rt )
Tutti gli eventi di manutenzione ricevono un ticket associato nella coda "sistemi". Note sul problema riscontrato, chi ha fatto cosa funziona quando, ecc. Sono tutte inserite nel biglietto, insieme alle necessarie autorizzazioni.

Al momento le nostre attività ricorrenti (patch trimestrale, ecc.) Vengono create manualmente, ma potrebbero essere automatizzate abbastanza facilmente (cron job + email).

Coordinare chi sta svolgendo il lavoro per noi è relativamente facile in quanto ci sono solo 2 persone nel nostro gruppo di amministratori, ma man mano che aumentiamo il piano è creare un ticket principale per gli eventi di manutenzione e utilizzare i ticket figlio assegnati alle parti responsabili per delegare il lavoro .


Le cose quotidiane (controlli dei registri, ecc.) Sono un'altra cosa: ho tutto ciò che è passato ai processi automatizzati:

  • InterMapper tiene d'occhio lo stato generale dei server (query SNMP alla ricerca di carico elevato, spazio su disco ridotto, ecc.), Funzionalità delle nostre interfacce Web e varie altre cose che potrebbero indicare problemi.
  • Syslog-NG raccoglie i registri dai nostri host e li alimenta attraverso una serie di script che verificano l'evidente malvagità. Di tanto in tanto guardo i registri per controllare la sanità mentale degli script, ma non è regolarmente programmato.


2

L'automazione correttamente implementata elimina la necessità di attività e liste di controllo del tutto. Perché vuoi controllare manualmente le cose quando disponi di computer in grado di svolgere il lavoro in modo molto più efficace ed efficiente?

Tutto ciò che necessita di controlli periodici viene controllato dal sistema di monitoraggio. Le attività di routine sono automatizzate ogni volta che sono pratiche e vengono inviati promemoria per quelle poche attività che devono essere eseguite manualmente. La documentazione è un'altra questione, ma fatta bene i tuoi computer possono principalmente creare la propria documentazione.

Smetti di cercare modi manuali migliori e inizia a cercare modi automatizzati migliori per fare qualsiasi lavoro. I computer sono lì per lavorare per noi, non noi per lavorare per loro.


Buona regola empirica: un amministratore di sistema dovrebbe essere sempre competente e pigro. Il desiderio di non lavorare porterà buoni amministratori di sistema a implementare una buona automazione.
voretaq7,

Permettetemi di fare un esempio specifico: devo monitorare le patch di sicurezza per Apache, quindi generare una nuova build e testarla quando viene rilasciata una patch. La parte di routine sta monitorando una nuova versione di Apache. Non si può semplicemente aggiornare direttamente dal repository (principale) perché non avrà compilato i moduli corretti. Inoltre, è necessario controllare per assicurarsi che le versioni siano state verificate. Ha più senso?
Zak,

Inoltre, non voglio semplicemente lanciare l'ultimo batch di qualsiasi software fino a quando la build non ha superato il QA. Gran parte del QA è automatizzato, ma non tutto.
Zak,

E c'è una ragione che non può essere scritta da tutti? Controllo automatico degli aggiornamenti, invio di un avviso quando alcuni sono disponibili, seguito da una compilazione e installazione con script, pronti per essere testati. Lascia che la macchina faccia il grosso del lavoro e ti dica quando è richiesta la tua attenzione.
John Gardeniers,

1

Per il lavoro di progetto, viene espulso dall'app Project Management (e-mail e calendario integrati con la possibilità di documentare il lavoro dettagliato e pianificarlo per determinate persone).

Per manutenzione, aggiornamenti, correzioni, ecc. Abbiamo un sistema di ticketing che si integra più o meno con il nostro processo di gestione delle modifiche per gestire le richieste e la pianificazione.

Per lavori completamente guidati internamente e lavori su cicli lunghi (trimestrali, annuali, ecc.):

I promemoria per fare le cose sono calandrati. Esiste documentazione informale / semi-formale ("wiki") per quale potrebbe essere il programma generale.

Esiste una quantità di "come" e documentazione procedurale su come svolgere le attività ed è accessibile al team in generale, ma le persone hanno i loro "libri neri" di amministrazione e registri con note e ricette.


1

Un sistema di monitoraggio può aiutare con queste cose:

  • Documentiamo ogni ciclo di manutenzione mensile in un file doc di Word con caselle di controllo. Ogni mese salviamo il rapporto in una cartella sul nostro NAS. Monitoriamo l'età minima del file della cartella. Se l'età minima del file è superiore a 40 giorni, viene emesso un allarme.

  • Una parte della nostra manutenzione ordinaria consiste nel riavviare server e dispositivi selezionati una volta al mese. Utilizziamo sensori "uptime di sistema" (SNMP / WMI) sul nostro software di monitoraggio e se il tempo di attività è superiore a 40 giorni riceviamo un allarme.

  • Per i backup monitoriamo l'età minima dei file nella cartella di backup di ciascun server sul nostro NAS. Se l'età minima del file è superiore a 10 giorni, viene emesso un allarme.


1

Uso Checkpanel ( https://checkpanel.com ) per gestire le mie attività di manutenzione ricorrenti. Fornisce liste di controllo riutilizzabili e un'interfaccia semplice per registrare i risultati di ciascun controllo.

Dopo aver controllato un articolo, non è solo "fatto", ma rimane disponibile per ulteriori controlli. Ogni controllo viene registrato in modo da poter rivedere facilmente una cronologia di tutti i controlli passati di un articolo, inclusi dettagli opzionali (ad esempio messaggi di errore per controlli non riusciti).

Puoi impostare una ricorrenza per ogni articolo per assicurarti di controllarlo almeno una volta alla settimana / ogni 2 giorni / ecc. C'è una visione consolidata di tutti gli articoli dovuti. Se lo desideri, puoi anche ricevere un'e-mail giornaliera con tutti gli elementi dovuti.

C'è un modello di liste di controllo per la manutenzione del server che puoi usare come base per le tue liste di controllo. Altri modelli includono liste di controllo per applicazioni Web, WordPress e altro.

Divulgazione: sono il fondatore di Checkpanel.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.