La scorsa settimana abbiamo avuto un'interruzione piuttosto grave che ha interessato diversi servizi che ci hanno messo fuori dal nostro SLA con i clienti. Ora che tutto è stato risolto, sto conducendo una revisione post mortem.
Da questa recensione, vorrei presentare un documento interno che descriva l'interruzione, i suoi effetti, la nostra risposta e la risoluzione. Voglio presentare un modulo abbastanza standard per il futuro riutilizzo. Ho incluso i miei pensieri di seguito, ma quali altri elementi dovrebbero essere inclusi? Se si trattasse di un incidente relativo alla sicurezza, cosa aggiungerebbe?
- Riepilogo Riepilogo a livello esecutivo dell'evento.
- Servizi interessati
- Impatto Qual è stato l'impatto sui nostri utenti e SLA? C'è stato un costo in termini di dollari, transazioni perse, clienti persi, ecc.?
- Durata dell'interruzione per ogni servizio interessato in caso di variazioni
- Causa Incluse cause primarie e secondarie
- Risoluzione
- Cronologia degli eventi Notifiche, contatto con fornitori esterni, notifiche dei clienti, risposte, ecc.
- Problemi con la nostra risposta Le cose non sono andate come previsto con la nostra risposta all'interruzione? Persone corrette avvisate? I venditori hanno adempiuto ai loro obblighi contrattuali?
- Misure preventive da adottare Come possiamo evitare che si verifichi nuovamente questa interruzione o ridurne l'impatto?
- Metodo di rilevazione Quanto bene abbiamo rilevato questa interruzione e come possiamo migliorare la rilevazione in futuro?
- Modifiche da apportare in future risposte all'interruzione
Cerca di limitare i post a un solo elemento e spiegazione e questo post può essere aggiornato con le risposte più votate.