Gli utenti non possono accedere alla loro e-mail, il CEO non può accedere alla home page dell'azienda e il tuo cercapersone ha appena disattivato il codice "911". Cosa fai quando tutto esplode?
Gli utenti non possono accedere alla loro e-mail, il CEO non può accedere alla home page dell'azienda e il tuo cercapersone ha appena disattivato il codice "911". Cosa fai quando tutto esplode?
Risposte:
La prima risposta è rimanere calmi! Ho imparato che il modo in cui il panico spesso peggiora le cose. Una volta ottenuto ciò, la prossima cosa è accertare effettivamente quale sia il problema. Reclami da parte di utenti e gestori ti verranno sotto tutti gli aspetti, dicendoti cosa NON POSSONO fare, ma non quale sia il problema.
Una volta che conosci il problema, puoi iniziare il piano per risolverlo e iniziare a dare ai tuoi utenti arrabbiati un calendario!
Stai calmo
Non andare fuori di testa. Respirare! (Dal diaframma, aiuta.) Se hai studiato meditazione, anche questo può aiutare.
Di fronte a uno stress estremo, il tuo corpo entrerà in una modalità di fuga o di combattimento, perché il tuo corpo pensa di trovarsi in una situazione di vita o di morte. In questo momento il tuo corpo effettivamente pomperà meno sangue in alcune parti del cervello, riducendo le funzioni come il ragionamento. Ciò abbassa efficacemente il tuo QI poiché l'istinto, anziché la razionalità, inizia a dominare le funzioni del tuo cervello. Se sei mai stato o hai assistito a una discussione accesa, potresti riconoscere questi sintomi come il flare delle emozioni delle persone e la razionalità prende una vacanza. Più tardi, quando le persone avranno la possibilità di rinfrescarsi, avranno maggiori probabilità di accettare di aver fatto un errore o di aver sbagliato, e sono più in grado di vedere l'altra parte, ma nel calore del momento, meno.
Mantenere la calma e mantenere la tua intelligenza su di te manterrà il tuo cervello funzionante a piena capacità e ti assicurerà di prendere decisioni razionali basate su prove e ragioni piuttosto che su emozioni e paura.
Smistamento
L'applicazione efficiente di risorse limitate per ottenere il massimo beneficio al minor costo è estremamente importante qui. Prendi le decisioni il più presto possibile quali cose devono essere risolte SUBITO, che può aspettare un po '(ore, giorni) e che può aspettare indefinitamente. Impara anche a capire quando qualcosa è invalicabile e non vale la pena salvare (ad esempio metà del router si è sciolto, anche se è l'unico, non puoi salvarlo, acquistarne uno nuovo e ottenerlo sul sito in fretta o trovare qualcosa che possa riempire temporaneamente il vuoto).
Mantieni consapevolezza della situazione
Non lasciare che la tua attenzione sia intrappolata da qualche problema interessante o da qualcosa che non hai ancora capito. Rimani concentrato sul quadro generale e su come far funzionare le cose più importanti.
Usa il metodo scientifico
Formare un'ipotesi. Determina come testeresti questa ipotesi. Raccogliere dati per verificare l'ipotesi. Cerca anche dati di conferma. Affina la tua ipotesi e ripeti il ciclo tutte le volte che è necessario fino a quando non hai abbastanza fiducia nelle tue ipotesi per agire.
Sii pragmatico
Ora non è il momento del dogma. Va bene prendere alcune scorciatoie qua e là quando si recupera dal disastro. Questo sta essenzialmente accumulando debito tecnico. In molte aziende, un fallimento catastrofico significa una catastrofica perdita di entrate. È meglio far funzionare le cose, anche se su una base traballante, che dillyly-indolente e rischiare il sostentamento della tua azienda. Come sempre, il giudizio è estremamente importante qui. A volte ha senso appoggiare un ventilatore a scatola puntato su un server rack, a volte no.
Abbi cura di te
Da quanto tempo lavori a questa emergenza? Quando è stata l'ultima volta che hai bevuto un bicchiere d'acqua? Quando è stata l'ultima volta che hai mangiato? Da quanto tempo sei sveglio? Non bruciarti solo perché c'è un'emergenza, prenditi il tempo per mantenerti idratato, nutrito e riposato (nel caso sia un lungo slogan di più giorni).
Recluta aiuto
Ci sono quasi certamente molte persone di talento nella tua azienda che sono sia motivate che capaci di prestare aiuto. Diffidare di avere troppe persone che corrono in giro e di creare problemi l'una per l'altra. Diffidare anche delle persone fastidiose sottoponendole a un "fuoco di fuoco". Trova persone che vogliono già aiutare, mettili al lavoro su attività mirate e assicurati che le persone comunichino tra loro.
Comunicare
La comunicazione è fondamentale. Niente è spaventoso come l'ignoto. Quando le persone non sanno altro che qualcosa è rotto, un'affermazione vuota che tornerà indietro tra X ore è solo leggermente rassicurante (ancora meno rassicurante dopo che sono trascorse X ore e le cose sono ancora rotte). Le pressioni in gioco possono indirizzarti verso stime del tempo WAG eccessivamente ottimistiche, ma questa è la strada sbagliata. Non limitarti a dire che ci stai lavorando, non limitarti a dire che le cose verranno risolte entro il tempo X. Sii aperto, mostra il tuo processo, dettaglia i tuoi progressi e le tue battute d'arresto. Fornisci informazioni sul problema, sul tuo processo per rintracciarlo e sul tuo piano per risolvere le cose (anche se non annegare le persone in minuti). Mostra che il problema non è intrattabile, mostra che alla fine le cose verranno risolte, mostra che ci sono persone competenti sul problema,
Non fatevi prendere dal panico.
Passaggio 0. Verificare che non sia colpa del sistema di monitoraggio
Prenota immediatamente un volo per un paese non estraditivo
Controlla prima le basi, sembra sciocco, ma cose del genere
So che si può perdere molto tempo a cercare una soluzione quando il problema è a monte
Io suono ping. Quello che succede dopo varia notevolmente a seconda dei risultati del ping.
Ci dispiace, ma questa domanda ha già una risposta perfetta nel cartone animato sysadmin preferito :
RTFLF - Leggi il file di registro di Frakkin
(Non posso prendermi il merito per questo, va tutto a Scott Hanselman )
Non provare ancora a risolvere nulla.
Assicurati di sapere esattamente qual è il vero problema di fondo. Ora inizia a sistemare le cose. Se ci sono più cose da risolvere, considera attentamente quali cose possono essere ritardate (almeno si spera fino al giorno lavorativo successivo!) E quali devono assolutamente essere risolte ora.
Ma soprattutto: una volta che tutto funziona, chiedi perché "tutto è esploso"? Che cosa hai intenzione di fare per evitare che ciò accada di nuovo? Ci sono dei passi che renderebbero la soluzione più facile se non accada di nuovo?
Fai sapere alle persone che ci sei e, se possibile, dai loro una stima su quando le cose torneranno alla normalità.
Per quanto riguarda l'effettiva risoluzione dei problemi, ciò ovviamente dipende da ciò che è sbagliato. Di solito tengo una raccolta di script "controlla lo stato" per vari servizi.
Controlla il cablaggio! Ho perso ore a controllare altre cose quando un semplice scambio di cavi Eth0 avrebbe risolto il problema ...
Dovresti avere piani di emergenza.
I sistemi essenziali devono essere progettati con failover automatico o un piano di ripristino documentato e testato.
Più importante è il sistema, maggiore è la capacità di recupero necessaria e più automatico dovrebbe essere.
Se non ne hai uno, allora non era importante, vero?
Assicurati che il backup del tuo curriculum sia sicuro :) Quindi,
Trova i punti in comune. Cosa è comune a tutti i sistemi interessati.
Trova cosa è cambiato. Dovresti avere una gestione formale delle modifiche in corso nella tua organizzazione.
Dov'è il nuovo ragazzo ... dov'è il capo ...? Uno di loro ha preso una scorciatoia? (è solo un riavvio rapido del server, cosa potrebbe danneggiare)
Mi piace questo elenco di risoluzione dei problemi L'applicazione di risoluzione dei problemi semplice ora risolve tutto =)
Dalla dichiarazione è difficile fornire una serie specifica di azioni. La tua prima mossa si baserà su:
Ovviamente, devi essere calmo e attento sul problema in questione. La tua esperienza con la risoluzione dei problemi di rete ti ha insegnato che questo potrebbe benissimo essere qualcosa di banale, come:
Detto questo, potrebbe anche essere qualcosa di grave nelle categorie di:
Il componente chiave è quanto SAPI sul problema. Qual è il tuo punto di riferimento? (da quale prospettiva è "il sistema inattivo"?).