Qual è la tua lista di controllo per quando tutto esplode?


40

Gli utenti non possono accedere alla loro e-mail, il CEO non può accedere alla home page dell'azienda e il tuo cercapersone ha appena disattivato il codice "911". Cosa fai quando tutto esplode?

Risposte:


35

La prima risposta è rimanere calmi! Ho imparato che il modo in cui il panico spesso peggiora le cose. Una volta ottenuto ciò, la prossima cosa è accertare effettivamente quale sia il problema. Reclami da parte di utenti e gestori ti verranno sotto tutti gli aspetti, dicendoti cosa NON POSSONO fare, ma non quale sia il problema.

Una volta che conosci il problema, puoi iniziare il piano per risolverlo e iniziare a dare ai tuoi utenti arrabbiati un calendario!


3
Questo è un piano reattivo. Un vero piano di ripristino di emergenza è già stato scritto e testato per ogni processo aziendale critico.
spoulson,

3
spaulson certo: ma la prima cosa da fare è capire se è necessario attivare il piano o se lanciando l'interruttore si risolverà tutto.
pjz,

1
Questa è in realtà la cosa migliore da fare, POST PERFETTO! Dopo che devi essere in grado di mantenere tutta la pressione sulla schiena perché, come detto in un commento sopra, tutti si precipiteranno nel tuo ufficio per dirti che possono andare dove vogliono. In realtà in questo momento gli utenti sono davvero egoisti e non vogliono affatto capire, vogliono solo che LORO cose funzionino e non si preoccupano del resto ... Quindi sono totalmente d'accordo con il tuo post !
Marc-Andre R.

+1 per distinguere "il problema" dai sintomi.
bmb,

59

Stai calmo

Non andare fuori di testa. Respirare! (Dal diaframma, aiuta.) Se hai studiato meditazione, anche questo può aiutare.

Di fronte a uno stress estremo, il tuo corpo entrerà in una modalità di fuga o di combattimento, perché il tuo corpo pensa di trovarsi in una situazione di vita o di morte. In questo momento il tuo corpo effettivamente pomperà meno sangue in alcune parti del cervello, riducendo le funzioni come il ragionamento. Ciò abbassa efficacemente il tuo QI poiché l'istinto, anziché la razionalità, inizia a dominare le funzioni del tuo cervello. Se sei mai stato o hai assistito a una discussione accesa, potresti riconoscere questi sintomi come il flare delle emozioni delle persone e la razionalità prende una vacanza. Più tardi, quando le persone avranno la possibilità di rinfrescarsi, avranno maggiori probabilità di accettare di aver fatto un errore o di aver sbagliato, e sono più in grado di vedere l'altra parte, ma nel calore del momento, meno.

Mantenere la calma e mantenere la tua intelligenza su di te manterrà il tuo cervello funzionante a piena capacità e ti assicurerà di prendere decisioni razionali basate su prove e ragioni piuttosto che su emozioni e paura.

Smistamento

L'applicazione efficiente di risorse limitate per ottenere il massimo beneficio al minor costo è estremamente importante qui. Prendi le decisioni il più presto possibile quali cose devono essere risolte SUBITO, che può aspettare un po '(ore, giorni) e che può aspettare indefinitamente. Impara anche a capire quando qualcosa è invalicabile e non vale la pena salvare (ad esempio metà del router si è sciolto, anche se è l'unico, non puoi salvarlo, acquistarne uno nuovo e ottenerlo sul sito in fretta o trovare qualcosa che possa riempire temporaneamente il vuoto).

Mantieni consapevolezza della situazione

Non lasciare che la tua attenzione sia intrappolata da qualche problema interessante o da qualcosa che non hai ancora capito. Rimani concentrato sul quadro generale e su come far funzionare le cose più importanti.

Usa il metodo scientifico

Formare un'ipotesi. Determina come testeresti questa ipotesi. Raccogliere dati per verificare l'ipotesi. Cerca anche dati di conferma. Affina la tua ipotesi e ripeti il ​​ciclo tutte le volte che è necessario fino a quando non hai abbastanza fiducia nelle tue ipotesi per agire.

Sii pragmatico

Ora non è il momento del dogma. Va bene prendere alcune scorciatoie qua e là quando si recupera dal disastro. Questo sta essenzialmente accumulando debito tecnico. In molte aziende, un fallimento catastrofico significa una catastrofica perdita di entrate. È meglio far funzionare le cose, anche se su una base traballante, che dillyly-indolente e rischiare il sostentamento della tua azienda. Come sempre, il giudizio è estremamente importante qui. A volte ha senso appoggiare un ventilatore a scatola puntato su un server rack, a volte no.

Abbi cura di te

Da quanto tempo lavori a questa emergenza? Quando è stata l'ultima volta che hai bevuto un bicchiere d'acqua? Quando è stata l'ultima volta che hai mangiato? Da quanto tempo sei sveglio? Non bruciarti solo perché c'è un'emergenza, prenditi il ​​tempo per mantenerti idratato, nutrito e riposato (nel caso sia un lungo slogan di più giorni).

Recluta aiuto

Ci sono quasi certamente molte persone di talento nella tua azienda che sono sia motivate che capaci di prestare aiuto. Diffidare di avere troppe persone che corrono in giro e di creare problemi l'una per l'altra. Diffidare anche delle persone fastidiose sottoponendole a un "fuoco di fuoco". Trova persone che vogliono già aiutare, mettili al lavoro su attività mirate e assicurati che le persone comunichino tra loro.

Comunicare

La comunicazione è fondamentale. Niente è spaventoso come l'ignoto. Quando le persone non sanno altro che qualcosa è rotto, un'affermazione vuota che tornerà indietro tra X ore è solo leggermente rassicurante (ancora meno rassicurante dopo che sono trascorse X ore e le cose sono ancora rotte). Le pressioni in gioco possono indirizzarti verso stime del tempo WAG eccessivamente ottimistiche, ma questa è la strada sbagliata. Non limitarti a dire che ci stai lavorando, non limitarti a dire che le cose verranno risolte entro il tempo X. Sii aperto, mostra il tuo processo, dettaglia i tuoi progressi e le tue battute d'arresto. Fornisci informazioni sul problema, sul tuo processo per rintracciarlo e sul tuo piano per risolvere le cose (anche se non annegare le persone in minuti). Mostra che il problema non è intrattabile, mostra che alla fine le cose verranno risolte, mostra che ci sono persone competenti sul problema,



22

Passaggio 0. Verificare che non sia colpa del sistema di monitoraggio


LOL! Ben fatto! Questo sta accadendo così tante volte: P
Marc-Andre R.



8

Controlla prima le basi, sembra sciocco, ma cose del genere

  1. L'alimentazione è attiva presso la struttura del server? (se si ospita fuori sede)
  2. Il tuo provider di hosting è inattivo?

So che si può perdere molto tempo a cercare una soluzione quando il problema è a monte


2
sì - se tutto va giù - controlla il datacenter - e i loro forum di supporto. Se ci sono 30 persone online, quando di solito ce ne sono 3, sta colpendo il fan.
Alister Bulman,

6

Io suono ping. Quello che succede dopo varia notevolmente a seconda dei risultati del ping.


Oggi ho usato questo metodo. Molti PC non sono stati in grado di stampare. Ho provato a eseguire il ping del server di database, OK. Ho provato a eseguire il ping del server delle licenze della stampante, nessuna risposta. Risultato = Errore del server!
Swinders,

Bel punto;) Lo faccio molte volte al giorno prima di fare qualsiasi altra cosa. In realtà, questo fa risparmiare molto tempo: P
Marc-Andre R.


4

Dai la colpa alla rete.

(è uno scherzo!)


3

RTFLF - Leggi il file di registro di Frakkin

(Non posso prendermi il merito per questo, va tutto a Scott Hanselman )


Questo non dovrebbe essere il primo passo ma deve essere uno di questi.
Marc-Andre R.

2

Non provare ancora a risolvere nulla.

Assicurati di sapere esattamente qual è il vero problema di fondo. Ora inizia a sistemare le cose. Se ci sono più cose da risolvere, considera attentamente quali cose possono essere ritardate (almeno si spera fino al giorno lavorativo successivo!) E quali devono assolutamente essere risolte ora.

Ma soprattutto: una volta che tutto funziona, chiedi perché "tutto è esploso"? Che cosa hai intenzione di fare per evitare che ciò accada di nuovo? Ci sono dei passi che renderebbero la soluzione più facile se non accada di nuovo?


1

Fai sapere alle persone che ci sei e, se possibile, dai loro una stima su quando le cose torneranno alla normalità.

Per quanto riguarda l'effettiva risoluzione dei problemi, ciò ovviamente dipende da ciò che è sbagliato. Di solito tengo una raccolta di script "controlla lo stato" per vari servizi.


Perché è stato downmodded? Mi sembra un punto valido.
Adriano Varoli Piazza

Questo è un punto eccellente. La prevenzione è la chiave per evitare un grande disastro;)
Marc-Andre R.

1

Controlla il cablaggio! Ho perso ore a controllare altre cose quando un semplice scambio di cavi Eth0 avrebbe risolto il problema ...


In realtà un cavo non muore senza motivo. Se non si tratta di impilare, avvolgere o qualsiasi altro metodo di protezione e che tutti possano giocarci, in realtà sì, è probabile che un cavo si rompa. Altrimenti, non c'è motivo.
Marc-Andre R.

0

Dovresti avere piani di emergenza.

I sistemi essenziali devono essere progettati con failover automatico o un piano di ripristino documentato e testato.

Più importante è il sistema, maggiore è la capacità di recupero necessaria e più automatico dovrebbe essere.

Se non ne hai uno, allora non era importante, vero?


0

Assicurati che il backup del tuo curriculum sia sicuro :) Quindi,

Trova i punti in comune. Cosa è comune a tutti i sistemi interessati.

Trova cosa è cambiato. Dovresti avere una gestione formale delle modifiche in corso nella tua organizzazione.

Dov'è il nuovo ragazzo ... dov'è il capo ...? Uno di loro ha preso una scorciatoia? (è solo un riavvio rapido del server, cosa potrebbe danneggiare)



0

Dalla dichiarazione è difficile fornire una serie specifica di azioni. La tua prima mossa si baserà su:

  • Dove sei
  • Quante informazioni sei in grado di estrarre dalla persona che ti ha contattato
  • Quali strumenti immediati hai a disposizione per la risoluzione dei problemi (o la ricerca di informazioni)
  • La tua conoscenza dei percorsi fisici e logici per la tua rete
  • Quanto aiuto hai (parte di una squadra? O ninja solitario?)

Ovviamente, devi essere calmo e attento sul problema in questione. La tua esperienza con la risoluzione dei problemi di rete ti ha insegnato che questo potrebbe benissimo essere qualcosa di banale, come:

  • Un cavo disconnesso
  • Una manutenzione senza preavviso (un'altra tecnologia che "ripara" le cose)
  • L'amministratore delegato ha reagito in modo eccessivo alla condanna della società alla perdita della connettività wireless del suo laptop a causa della cottura al microonde di una pizza al formaggio.

Detto questo, potrebbe anche essere qualcosa di grave nelle categorie di:

  • Trasporto fisico (connettività)
  • Hardware (router \ switch \ server)
  • Archiviazione (inaccessibile \ compromessa \ eliminata)
  • Software (Servizio> Configurazione errata \ Attaccato \ offline)

Il componente chiave è quanto SAPI sul problema. Qual è il tuo punto di riferimento? (da quale prospettiva è "il sistema inattivo"?).



0

Inizia in modo semplice e lavora verso l'assurdo.

Energia?

Ethernet?

Programma in esecuzione?

...

Aliens?

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.