Come ti raffreddi quando il sistema di produzione non funziona? [chiuso]


26

Questo è successo a molti di noi ...

Tu vieni a lavorare un giorno. Tutto sembra normale - il sole splende, gli uccelli cinguettano, ma noti un paio di cose strane mentre vai al lavoro che ti ricordano il gatto déjà vu in Matrix.

Entrate in ufficio e ci sono molti telefoni che squillano, ma potrebbe essere che stiano facendo una nuova promozione delle vendite. Ti stabilisci, quando noti una nuvola scura che si libra sopra di te.

Ti ci vogliono un paio di momenti, ma riconosci che il cloud è il tuo capo. Di solito ti controlla ogni mattina con il suo "Soooo Peeeeter, che ne dici di quei rapporti TCP / IP?" routine, ma oggi ha dimenticato tutto sulle buone maniere comuni e ha invaso bruscamente il tuo spazio personale. Nessun "buongiorno", solo qualche sbavatura, grugniti e maledizioni. Ti ricorda un po 'un neanderthal che sta cercando di scappare da una tigre dai denti cibernetici, paura e panico compressi in una palla stretta. Cerchi di decifrare il nuovo linguaggio che ha creato da ieri e inizi a capire che durante la notte è successo qualcosa di brutto: il sistema di produzione è andato in crash.

Ora, il sistema viene solitamente utilizzato dai client durante il normale orario di lavoro dalle 9 alle 5, ma per qualsiasi motivo non hai ricevuto alcun avviso sul tuo segnale acustico (per le persone sotto i 30 anni - un segnale acustico era come un telefono cellulare che poteva solo squillare e dirti chi ti ha emesso un segnale acustico). Dovrai ricordarti di caricarlo la prossima volta.

Quindi sono le 8:45 del mattino e il sistema DEVE essere attivo alle 9 del mattino. Ogni 10 secondi, il tuo capo emette ancora un'altra maledizione che ti comunica che un altro cliente ha problemi ad entrare nel sistema. Inoltre, diversi account manager ora passano sopra il tuo capo cercando di fargli capire come i clienti soffrono davvero.

Ognuno dipende da te per far funzionare il sistema il prima possibile e allo stesso tempo ostacola i tuoi progressi distrandoti costantemente.

Come stai calmo in una situazione come questa?


34
Primo passo: componi un post di 300 parole su programmers.stackexchange.
Kubi,

8
Non dire che sta succedendo proprio ora. Aspetta, fammi controllare ...
Mag20,

1
È un problema unico per gli sviluppatori? Se qualcosa di cui sei responsabile non funziona, devi essere in grado di gestire la pressione indipendentemente da quale "cosa" sia.
ChrisF

1
Ho scoperto che nella mia esperienza, pochissime software house, grandi e piccole, eseguono esercitazioni di disaster recovery. Lo metterei al tuo capo. Se fai un esercizio, sai cosa aspettarti e sai come farti un'idea dei tempi di risposta. È inoltre possibile valutare se uno qualsiasi dei processi può essere automatizzato. Cosa succede se perdi potere? Cosa succede se un incendio inizia in ufficio, hai una posizione fuori sede? I server sono ospitati internamente o esternamente, ecc. Davvero, è necessario sottolineare che deve essere messo in atto un piano di conflitto.
Desolato pianeta,

3
Sembra l'inizio di una voce su TheDailyWTF!
Grant Palin,

Risposte:


43

Nella situazione, chiedi al tuo capo di aiutarti tenendo tutte le altre persone lontane da te (il che gli dà qualcosa da fare altrove).

Quando lo avvii e lo esegui di nuovo, chiedi al tuo capo una riunione per valutare e stabilire procedure per evitare che ciò accada di nuovo.


1
+1. Le esercitazioni di recupero di emergenza sono buoni modi per valutare le reazioni e i tempi di risposta. Peccato non ne vedo abbastanza.
Desolato pianeta,

@DP yah, ma non possiamo farlo perché significherebbe che le persone e le attrezzature non sono disponibili per le emergenze effettive mentre è in corso l'esercitazione (sì, ho sentito l'argomento più di una volta). Naturalmente se ci fossero abbastanza persone e attrezzature, potresti allenare una squadra su un set mentre l'altra è in servizio ...
jwenting

@jwenting suona come salvare sull'allarme antincendio.

9

La prima cosa da fare è rimuovere le distrazioni nel modo più educato possibile. Nessuno può lavorare con qualcuno che ti sogna nell'orecchio di quanto sia male per i tuoi clienti. Questo è ovviamente più facile a dirsi che a farsi se il tuo capo è un maniaco, ma in tal caso, potresti prendere in considerazione l'idea di trovare un altro lavoro.

Quindi fai una rapida valutazione della perdita reale causata dall'errore e di come (se non del tutto) può essere mitigata rapidamente. Con un po 'di pratica, puoi anche fare un rapido controllo sui file di registro, che dovrai formare un piano d'azione.

Se il problema è complesso, concentrati sulla parte più grave di esso. Pensa due o tre passi avanti prima di entrare in azione. Inoltre, assicurati di sapere come uscire da qualsiasi piano prima di agire.

E la cosa più importante: non farti prendere dal panico!


7

Situazioni come questa sono comuni nei sistemi di controllo industriale. La linea di produzione si interrompe nel bel mezzo della notte, la società in genere sta perdendo centinaia, o addirittura migliaia, di dollari al minuto e ti stanno cercando per risolvere il problema. Lo gestisci così:

  1. Spiega loro quello che sai
  2. Spiega ciò che non sai (ma devi sapere per risolvere il problema)
  3. Spiega come scoprirai ciò che non sai
  4. Dagli una stima di quanto tempo ci vorrà (usa un intervallo)
  5. Ignora tutto ciò che ti circonda mentre ti concentri sul seguire il tuo piano

6

La prima cosa è aver ripetutamente praticato il ripristino di emergenza (senza persone in piedi dietro la spalla) in modo da sapere esattamente quali passi è necessario adottare per diagnosticare e risolvere il problema senza dover ricorrere a domande su SO per scoprire cosa fare. Una volta che ti senti sicuro delle tue capacità di recupero, la pressione e lo stress sono molto più bassi.

Il prossimo è di togliere le persone dai capelli mentre lavori. Il tuo capo vuole qualcosa con cui possa andare dal suo capo. Fornisci loro alcune informazioni su ciò che intendi fare e su quanto tempo potrebbe richiedere e quindi rapporti periodici sui progressi, specialmente se trovi qualcosa che significa che richiederà molto più tempo di quanto hai detto loro. Sì, i rapporti sui progressi richiedono molto tempo per risolverlo, ma i boss e gli utenti in bilico richiedono ancora più tempo. Io, vado per i rapporti sui progressi ogni volta. Una volta che sono sicuri che li manterrai aggiornati, si fideranno di te per fare di più il tuo lavoro e lasciarti solo di più.

Se gli utenti verranno bloccati per un po 'di tempo, quindi inviare loro un'e-mail se questa è un'opzione o inserire un avviso sul sito Web, dicendo che il sito è inattivo per manutenzione e quando dovrebbero essere in grado di riprovare. (Questo è forse un compito che puoi affidare al tuo capo per trovare qualcuno da fare per tenerlo fuori dai tuoi capelli.) Le persone sono meno irritabili di non poter accedere quando sanno che qualcuno sta lavorando al problema. Quando le cose sono risolte, se hai inviato un'email, invia lo stesso gruppo tramite e-mail per dire che è stato risolto. Non posso dirti quante volte ho visto persone che lo dimenticano e gli utenti pensano ancora di non poter accedere quando possono. L'obiettivo non è solo quello di migliorare le cose, ma di far lavorare di nuovo le persone con il sistema.

Respirare profondamente (i respiri profondi sono calmanti) e immergersi nel problema. È bene avere le cose che devi fare scritte da qualche parte perché in un'emergenza a volte le tue sinaspe cerebrali non raccolgono le informazioni più rapidamente del normale. Non vuoi sembrare un idiota che mormora: "So che abbiamo un tronco, dove diavolo è?"

Se lavori in un luogo in cui supporti i sistemi di produzione, è meglio essere il tipo di persona che reagisce bene in caso di emergenza in generale. Non sono sicuro che tu possa imparare davvero questo. Se qualcuno che cavalca un cavallo di fronte a te cade (un esempio non così casuale preso dalla mia vita) e giaceva sanguinante per terra, sei il tipo di persona che sta lì con la bocca aperta o sei tu chi chiama l'ambulanza, mette la benda sotto pressione sul sanguinamento e dirige qualcuno a catturare il cavallo? Se sei il primo tipo di persona, forse questa non è la linea di lavoro giusta per te.


2

Di 'loro che questo è un buon motivo per cui hai bisogno di un server di backup, e con questo intendo un secondo server che funziona come il principale a cui è possibile passare immediatamente se il primo si interrompe.


Ho visto un server di backup acceso e ha avuto lo stesso problema del server primario. Ha raddoppiato il costo dell'hardware, aggiunto al costo di configurazione ed è stato uno spreco di spesa totale. Se stai facendo un lavoro ad alta disponibilità, sicuramente, ma devi dimensionare correttamente il tuo hardware in base al problema.
Scott Whitlock,

un esempio (estremo) del sistema di backup interessato dallo stesso bug del sistema primario è Ariane 5 Flight 501
Andre Holzner

2

È abbastanza brutto quando sei circondato da tutte le parti da persone che sono arrabbiate con te per un problema che hai creato, anche se è due volte più grave quando è un problema che non hai creato. Mi è successo più di una volta che il client lo ha appena configurato male, il che significa che la colpa è nel comunicare con il cliente (se la colpa è il cliente per non ascoltare o il marketer per non spiegare bene, non lo saprai mai).

Come spieghi che hanno fatto un casino? Mai un compito facile, specialmente quando il tuo capo ti respira dal collo perché non sa niente di meglio che supporre che il cliente abbia sempre ragione.

Quindi, come ti raffreddi in una situazione come questa? Ricorda cortesemente al tuo capo che prima ti metterai al lavoro, prima questo problema verrà risolto.


1

Considerando questo evento come un'opportunità per mostrare quanto sono prezioso (per l'azienda) riportando il sistema di produzione in esecuzione il più rapidamente possibile (se non prima delle 9 ;-)).

Ovviamente, sperando di non averlo rotto in primo luogo ;-)


1
  • succede
  • ci deve essere una soluzione a un problema
  • se qualcuno al mondo conosce la soluzione, posso essere uno di loro
  • se non c'è soluzione, il panico non aiuta
  • di nuovo, succede sh_t

0

Bene, chiedi sicuramente al tuo capo che tornerai da lui quando risolverai il problema; sebbene in questo tipo di situazioni il management di solito coinvolga altre persone per risolverlo APPENA POSSIBILE e poi dea, con la persona "interessata" in seguito ... Questa è la norma con qualsiasi azienda indipendentemente dal settore; per quanto riguarda gli affari il cliente è di solito il re !!


0

Situazioni del genere mi motivano di più ad avere una documentazione approfondita di tutto e un piano accurato per affrontare qualsiasi tipo di situazione.

Anche se non possiamo prevedere ogni possibile problema, ma possiamo lavorare alle spalle, nell'essere più preparati, organizzati e documentati.


1
Non ho mai risolto un problema di produzione (ad esempio il sistema inattivo) utilizzando la documentazione.
Marcie,

1
No, ma se hai bisogno di cercare qualcosa, come specifiche, definizioni di tabelle, impostazioni del server, è necessario averlo documentato.
crosenblum,

0

Ho trascorso 8 anni a fare manutenzione sui bombardieri B52G in un allarme di 5 minuti per la terza guerra mondiale. Questo mette tutto in prospettiva per me.

Un sistema di produzione discendente è importante, ma non ucciderà milioni o miliardi di persone.

Scopri cosa c'è che non va, trova la causa, risolvilo. Stabilire comunicazioni chiare con coloro che contano e tenerli informati. Spiega al tuo capo cosa stai facendo e quando sarai in grado di aggiornarlo, puoi impedire che continui un flusso di messaggi e conversazioni "è ancora risolto".

fare un post post mortem e capire come prevenire e limitare gli effetti di tali incidenti in futuro.

Se sei di guardia, avere una batteria scarica su un cellulare o un cicalino è estremamente poco professionale. Questo è uno scenario generale, ma se ciò accadesse a una persona che lavora per me, ci sarebbe una discussione seria e se fosse ripetuta, non funzionerebbero più per me. Sì, sono un duro.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.