Documentare un'interruzione per una revisione post mortem


14

La scorsa settimana abbiamo avuto un'interruzione piuttosto grave che ha interessato diversi servizi che ci hanno messo fuori dal nostro SLA con i clienti. Ora che tutto è stato risolto, sto conducendo una revisione post mortem.

Da questa recensione, vorrei presentare un documento interno che descriva l'interruzione, i suoi effetti, la nostra risposta e la risoluzione. Voglio presentare un modulo abbastanza standard per il futuro riutilizzo. Ho incluso i miei pensieri di seguito, ma quali altri elementi dovrebbero essere inclusi? Se si trattasse di un incidente relativo alla sicurezza, cosa aggiungerebbe?

  • Riepilogo Riepilogo a livello esecutivo dell'evento.
  • Servizi interessati
  • Impatto Qual è stato l'impatto sui nostri utenti e SLA? C'è stato un costo in termini di dollari, transazioni perse, clienti persi, ecc.?
  • Durata dell'interruzione per ogni servizio interessato in caso di variazioni
  • Causa Incluse cause primarie e secondarie
  • Risoluzione
  • Cronologia degli eventi Notifiche, contatto con fornitori esterni, notifiche dei clienti, risposte, ecc.
  • Problemi con la nostra risposta Le cose non sono andate come previsto con la nostra risposta all'interruzione? Persone corrette avvisate? I venditori hanno adempiuto ai loro obblighi contrattuali?
  • Misure preventive da adottare Come possiamo evitare che si verifichi nuovamente questa interruzione o ridurne l'impatto?
  • Metodo di rilevazione Quanto bene abbiamo rilevato questa interruzione e come possiamo migliorare la rilevazione in futuro?
  • Modifiche da apportare in future risposte all'interruzione

Cerca di limitare i post a un solo elemento e spiegazione e questo post può essere aggiornato con le risposte più votate.

Risposte:


6

Anche se potrebbe essere trattato nelle misure preventive da adottare , consiglierei di avere una sezione del metodo di rilevamento che potresti utilizzare per annotare quali erano i veri sintomi e come potresti rilevare il problema (più velocemente) se si verifica di nuovo, idealmente usando l'automazione.


Aggiunto al wiki
Doug Luxem il

2

Sembra buono. Vorrei solo aggiungere quanto segue:

Effetti / Conseguenze : Qual è la conseguenza dell'interruzione: chi è stato interessato, quali SLA sono stati violati (se presenti), ci sono stati effetti a catena?


1

I servizi interessati e la durata dell'interruzione indicano solo in parte quanto è stata grave un'interruzione. Vuoi anche sapere qual è stato l'impatto sul business.

Impatto : quale effetto ha avuto sugli utenti e come è stato percepito? Quanto ci è costato (per mancanza di SLA, ordini persi ecc.)?


Mi piace la distinzione tra servizi interessati e impatto aziendale, ma la classificherei come "Impatto aziendale" e non solo impatto (per fare una distinzione tra i servizi interessati e le informazioni sulla durata / servizi interessati). Inoltre attirerà l'attenzione del management che deve essere consapevole dell'impatto sul business, se non tutti i dettagli tecnici di quali servizi sono stati interessati ...
Milner,

1

Rilascio pubblico e rilascio interno

Questo è qualcosa che il management può decidere, ma potresti decidere cosa includere ciò che dovrebbe essere rilasciato ai clienti al riguardo o la tua raccomandazione. Inoltre, in entrambi i casi ottenere l'approvazione dalla direzione sulla formulazione esatta di ciò che verrà rilasciato ai clienti prima di rilasciare qualcosa.

La versione pubblica dovrebbe essere inclusa in questo in modo che chiunque nell'azienda sappia cosa è autorizzato a dire ai clienti.


Penso che questo documento interno possa essere utilizzato per generare una versione esterna per i clienti. Esattamente quello che sarebbe stato detto ai clienti sarebbe spettato ai nostri dirigenti e al marketing / alle nostre comunicazioni.
Doug Luxem,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.