Il consenso generale sembra essere che la risposta alla tua domanda si presenti in due parti:
Come troviamo la fonte del buffo odore bruciante?
Hai il "How" abbastanza ben definito:
- Il "Sniff Test"
- Cerca fumo / foschia visibili
- Cammina per la stanza con una termocamera (IR) per trovare punti caldi
- Controllare il monitoraggio e i pannelli del dispositivo per gli avvisi
Puoi aumentare le tue possibilità di trovare rapidamente il problema in diversi modi: un monitoraggio più efficace è spesso il più semplice. Alcune domande da porre:
- Ricevi avvisi di temperatura e di altro tipo dalla tua attrezzatura?
- I sistemi UPS segnalano guasti al sistema di monitoraggio?
- Ricevi allarmi di assorbimento di corrente dalle tue apparecchiature di distribuzione dell'alimentazione?
- I rilevatori di fumo ambientale segnalano al sistema di monitoraggio? (e possono? )
Quando dovremmo risolvere i problemi anziché premere il Big Red Switch?
Questa è una domanda più interessante
Colpire il grande interruttore rosso può costare alla tua azienda un'enorme quantità di denaro in fretta: i rilasci di agenti puliti possono essere in decine di migliaia di dollari e i costi di interruzione / recupero dopo uno spegnimento di emergenza (EPO, "far cadere la stanza" ) può essere devastante.
Non si desidera far cadere un datacenter perché un condensatore in un alimentatore è scoppiato e ha fatto puzzare la stanza.
Al contrario, un incendio in una sala server può costare alla tua azienda i suoi dati / apparecchiature e, soprattutto, la vita del tuo personale.
La risoluzione dei problemi "quel buffo odore di bruciato" non dovrebbe mai avere la precedenza sulla sicurezza , quindi è importante avere alcune regole chiare sulla risoluzione dei problemi di "pre-incendio".
Le linee guida che seguono sono le mie limitazioni personali che applico in assenza di (o in aggiunta a) qualsiasi altra procedura / regola chiaramente definita: mi hanno servito bene e possono aiutarti, ma potrebbero anche farmi uccidere facilmente o licenziato domani, quindi applicali a tuo rischio e pericolo.
Se vedi fumo o fuoco,
lascia cadere la stanza Questo dovrebbe essere ovvio, ma diciamolo comunque: se c'è un fuoco attivo (o fumo che indica che presto ci sarà) evacui la stanza, riduci l'energia e scarica il fuoco sistema di soppressione.
Possono esistere eccezioni (esercitare un po 'di buon senso), ma questa è quasi sempre l'azione corretta.
Se stai procedendo alla risoluzione dei problemi, coinvolgi sempre almeno un'altra persona
per due motivi. Innanzitutto, non vuoi vagare in un datacenter e all'improvviso fai salire un rack nella fila in cui stai camminando e nessuno sa che sei lì. In secondo luogo, l'altra persona è il tuo controllo di sanità mentale sulla risoluzione dei problemi anziché lasciare la stanza, e se dovessi effettuare la chiamata per colpire il Big Red Switch hai il vantaggio di avere una seconda persona che concorda con la decisione (aiuta a evitare gli aspetti limitanti della carriera di tale decisione se qualcuno lo mette in discussione in seguito).
Esegui misure di sicurezza prudenti durante la risoluzione dei problemi Assicurati di avere sempre un percorso di fuga (un'estremità aperta di una fila e un percorso libero verso un'uscita).
Mantieni qualcuno di stanza al rilascio EPO / antincendio.
Porta con te un estintore (Halon o altro detergente, per favore).
Ricorda la regola n. 1 sopra.
In caso di dubbio, lascia la stanza . Abbi cura della tua respirazione: usa un respiratore o una maschera per ossigeno. Questo potrebbe salvare la tua salute in caso di incendio chimico.
Imposta un limite e rispettalo in modo
più preciso, imposta due limiti:
- Condizione ("Quanto peggio farò ottenere questo?"), E
- Tempo ("Per quanto tempo continuerò a cercare di trovare il problema prima che sia troppo rischioso?").
I limiti impostati possono essere utilizzati anche per lasciare il vostro team di iniziare un arresto normale della zona interessata, in modo che quando si FATE tirano il potere non si è schiantarsi un mucchio di macchine attive, e il tempo di recupero sarà molto più breve, ma ricordate che se l'arresto ordinato richiede troppo tempo, potrebbe essere necessario arrestare alcuni sistemi in nome della sicurezza.
Fidati del tuo istinto
Se sei preoccupato per la sicurezza in qualsiasi momento, annulla la risoluzione dei problemi e svuota la stanza.
È possibile o meno abbandonare la stanza in base a una sensazione viscerale, ma è prudente raggrupparsi all'esterno della stanza in (relativa) sicurezza.
Se non vi è alcun pericolo imminente, si può scegliere di portare i vigili del fuoco locali prima di intraprendere azioni drastiche come un EPO o un rilascio di agenti puliti. (Potrebbero dirti di farlo comunque: il loro mandato è proteggere le persone, quindi le proprietà, ma sono ovviamente gli esperti nel gestire gli incendi, quindi dovresti fare quello che dicono!)
Abbiamo affrontato questo problema nei commenti, ma potrebbe anche essere riassunto in una risposta: @DeerHunter, @Chris, @Sirex e molti altri hanno contribuito alla discussione