Qualcosa sta bruciando nella stanza del server; come posso identificare rapidamente di cosa si tratta?


454

L'altro giorno, notiamo un terribile odore di bruciato che esce dalla sala server. Per farla breve, è finito per essere uno dei moduli batteria che si stavano accendendo nell'unità UPS, ma ci sono volute un paio d'ore prima che riuscissimo a capirlo. Il motivo principale per cui siamo riusciti a capirlo è che il display dell'UPS ha finalmente mostrato che il modulo doveva essere sostituito.

Ecco il problema: l'intera stanza era piena di odore. Fare un test sniff era molto difficile perché l'odore si era infiltrato in tutto (per non parlare del fatto che ci rendeva leggeri). Abbiamo quasi erroneamente disattivato il nostro server di database di produzione perché è l'odore più forte. I parametri vitali sembravano ok (le temperature della CPU mostravano 60 ° C e la velocità della ventola era ok), ma non eravamo sicuri. È semplicemente successo che il modulo batteria che si è bruciato era circa alla stessa altezza del server sul rack e solo a 3 piedi di distanza. Se questa fosse stata una vera emergenza, avremmo fallito miseramente.

Realisticamente, le probabilità che l'hardware effettivo del server si stia bruciando è un evento abbastanza raro e la maggior parte delle volte guarderemo all'UPS il colpevole. Ma con diversi rack con diversi pezzi di equipaggiamento, può rapidamente diventare un gioco d'ipotesi. In che modo si può determinare rapidamente e con precisione quale apparecchiatura sta effettivamente bruciando? Mi rendo conto che questa domanda dipende fortemente dalle variabili d'ambiente come dimensioni della stanza, ventilazione, posizione, ecc., Ma qualsiasi input sarebbe apprezzato.


34
@DeerHunter Bene grazie al cielo era la fine della giornata e c'erano pochissime persone nel palazzo. Grazie per le tue critiche costruttive e farò in modo che il mio supervisore sappia quali vite ha rischiato nel decidere di mantenere il sistema attivo.
Chad Harrison,

12
@hydroparadise - qualcuno deve avere il coraggio di dire " STOP Non stiamo facendo bene questa cosa". Se il tuo supervisore non capisce le regole di sicurezza, non c'è molto che si possa fare, tranne far crescere la colonna vertebrale e non inchinarsi all'impulso di tagliare gli angoli.
Deer Hunter

112
@DeerHunter: Quale sarebbe la risposta appropriata quando senti l'odore di qualcosa che brucia? Non c'è fumo visibile, solo un odore bruciato. Spegni l'intero datacenter, lo spegni per alcune ore, quindi accendi i server uno a uno fino a quando l'odore non ritorna? Un piccolo datacenter da 25 rack potrebbe avere 1.000 server da controllare, il che è un sacco di downtime per un "odore": l'OP non ha segnalato fumo o incendio visibili.
Johnny,

24
@Johnny - Citando l'OP: "l'intera stanza era piena di odore. Fare un test di sniff era molto difficile perché l'odore si era infiltrato in tutto (per non parlare del fatto che ci aveva fatto venire la testa leggera)" Rispondere alla tua domanda - sì, devi sfiatare la stanza e risolvere sistematicamente i problemi . Qualsiasi altra cosa è irresponsabile.
Deer Hunter

14
Quindi, quelli critici sulla gestione dell'odore dell'OP suggeriscono che non vi è alcuna differenza di urgenza tra un odore e un fuoco / fumo? Se senti l'odore di qualcosa che brucia in casa ma non vedi fumo e non senti alcun allarme, corri fuori casa e la tua famiglia e chiamate il 911?
trpt4him

Risposte:


383

Il consenso generale sembra essere che la risposta alla tua domanda si presenti in due parti:

Come troviamo la fonte del buffo odore bruciante?

Hai il "How" abbastanza ben definito:

  • Il "Sniff Test"
  • Cerca fumo / foschia visibili
  • Cammina per la stanza con una termocamera (IR) per trovare punti caldi
  • Controllare il monitoraggio e i pannelli del dispositivo per gli avvisi

Puoi aumentare le tue possibilità di trovare rapidamente il problema in diversi modi: un monitoraggio più efficace è spesso il più semplice. Alcune domande da porre:

  • Ricevi avvisi di temperatura e di altro tipo dalla tua attrezzatura?
  • I sistemi UPS segnalano guasti al sistema di monitoraggio?
  • Ricevi allarmi di assorbimento di corrente dalle tue apparecchiature di distribuzione dell'alimentazione?
  • I rilevatori di fumo ambientale segnalano al sistema di monitoraggio? (e possono? )

Quando dovremmo risolvere i problemi anziché premere il Big Red Switch?

Questa è una domanda più interessante
Colpire il grande interruttore rosso può costare alla tua azienda un'enorme quantità di denaro in fretta: i rilasci di agenti puliti possono essere in decine di migliaia di dollari e i costi di interruzione / recupero dopo uno spegnimento di emergenza (EPO, "far cadere la stanza" ) può essere devastante.
Non si desidera far cadere un datacenter perché un condensatore in un alimentatore è scoppiato e ha fatto puzzare la stanza.

Al contrario, un incendio in una sala server può costare alla tua azienda i suoi dati / apparecchiature e, soprattutto, la vita del tuo personale.
La risoluzione dei problemi "quel buffo odore di bruciato" non dovrebbe mai avere la precedenza sulla sicurezza , quindi è importante avere alcune regole chiare sulla risoluzione dei problemi di "pre-incendio".

Le linee guida che seguono sono le mie limitazioni personali che applico in assenza di (o in aggiunta a) qualsiasi altra procedura / regola chiaramente definita: mi hanno servito bene e possono aiutarti, ma potrebbero anche farmi uccidere facilmente o licenziato domani, quindi applicali a tuo rischio e pericolo.

  1. Se vedi fumo o fuoco,
    lascia cadere la stanza Questo dovrebbe essere ovvio, ma diciamolo comunque: se c'è un fuoco attivo (o fumo che indica che presto ci sarà) evacui la stanza, riduci l'energia e scarica il fuoco sistema di soppressione.
    Possono esistere eccezioni (esercitare un po 'di buon senso), ma questa è quasi sempre l'azione corretta.

  2. Se stai procedendo alla risoluzione dei problemi, coinvolgi sempre almeno un'altra persona
    per due motivi. Innanzitutto, non vuoi vagare in un datacenter e all'improvviso fai salire un rack nella fila in cui stai camminando e nessuno sa che sei lì. In secondo luogo, l'altra persona è il tuo controllo di sanità mentale sulla risoluzione dei problemi anziché lasciare la stanza, e se dovessi effettuare la chiamata per colpire il Big Red Switch hai il vantaggio di avere una seconda persona che concorda con la decisione (aiuta a evitare gli aspetti limitanti della carriera di tale decisione se qualcuno lo mette in discussione in seguito).


  3. Esegui misure di sicurezza prudenti durante la risoluzione dei problemi Assicurati di avere sempre un percorso di fuga (un'estremità aperta di una fila e un percorso libero verso un'uscita).
    Mantieni qualcuno di stanza al rilascio EPO / antincendio.
    Porta con te un estintore (Halon o altro detergente, per favore).
    Ricorda la regola n. 1 sopra.
    In caso di dubbio, lascia la stanza . Abbi cura della tua respirazione: usa un respiratore o una maschera per ossigeno. Questo potrebbe salvare la tua salute in caso di incendio chimico.

  4. Imposta un limite e rispettalo in modo
    più preciso, imposta due limiti:

    • Condizione ("Quanto peggio farò ottenere questo?"), E
    • Tempo ("Per quanto tempo continuerò a cercare di trovare il problema prima che sia troppo rischioso?").

    I limiti impostati possono essere utilizzati anche per lasciare il vostro team di iniziare un arresto normale della zona interessata, in modo che quando si FATE tirano il potere non si è schiantarsi un mucchio di macchine attive, e il tempo di recupero sarà molto più breve, ma ricordate che se l'arresto ordinato richiede troppo tempo, potrebbe essere necessario arrestare alcuni sistemi in nome della sicurezza.

  5. Fidati del tuo istinto
    Se sei preoccupato per la sicurezza in qualsiasi momento, annulla la risoluzione dei problemi e svuota la stanza.
    È possibile o meno abbandonare la stanza in base a una sensazione viscerale, ma è prudente raggrupparsi all'esterno della stanza in (relativa) sicurezza.

Se non vi è alcun pericolo imminente, si può scegliere di portare i vigili del fuoco locali prima di intraprendere azioni drastiche come un EPO o un rilascio di agenti puliti. (Potrebbero dirti di farlo comunque: il loro mandato è proteggere le persone, quindi le proprietà, ma sono ovviamente gli esperti nel gestire gli incendi, quindi dovresti fare quello che dicono!)

Abbiamo affrontato questo problema nei commenti, ma potrebbe anche essere riassunto in una risposta: @DeerHunter, @Chris, @Sirex e molti altri hanno contribuito alla discussione


30
Università Sono andato a installare un nuovo data center. Hanno implementato un sistema EPO / antincendio altamente sofisticato. L'attrezzatura che stava proteggendo era di milioni di dollari e veniva anche usata per milioni di dollari di ricerca per la parte medica della scuola. Ovviamente, se fosse necessario, il pulsante rosso verrebbe colpito ma, detto questo se il pulsante rosso fosse colpito, il solo ripristino era vicino a $ 200.000. Dollari dei contribuenti puoi sicuramente scommettere che se l'interruttore fosse stato colpito quando non era necessario, il ragazzo che lo colpiva non avrebbe più un lavoro.
Ryan,

28
+1 per il sistema degli amici. Penso che sia un po 'fuori di testa che ci sono DC là fuori che usano l'EPO anche per scaricare la soppressione del fuoco. Ci sono molte situazioni in cui vorresti fare l'EPO senza voler scaricare halotron in tutto il ragazzo che viene fulminato. Un EPO è un affare serio ma non è un "distruggere tutto nell'accordo di tipo DC" o almeno non dovrebbe esserlo. I ragazzi della DC dovrebbero sperare di capire il grande pulsante rosso e il sistema di soppressione del fuoco abbastanza bene da soppesare l'effetto di premere il pulsante. Un EPO può effettivamente arrestare un incendio e salvare il DC, ad esempio.
chris,

13
Una nota importante che non ho visto menzionato è che la maggior parte delle volte in cui qualcosa fallisce in modo da emettere un odore di bruciato, qualunque cosa bruci si estinguerà da sola prima che l'odore venga rilevato e senza bruciare nulla al di fuori dell'attrezzatura guasta . A volte un pezzo di equipaggiamento continuerà a bruciare fino a quando avrà energia, ma se si vede il fumo dovrebbe essere possibile identificare l'attrezzatura, tagliare l'energia solo ad essa e vedere se il fumo si spegne presto o peggiora continuamente.
supercat

1
@ryan: se colpire il grosso pulsante rosso costa così tanti dollari dei contribuenti, si spera che la persona responsabile abbia elaborato un piano per risolvere piccoli incidenti con i vigili del fuoco locali che non comportino rischi per i dipendenti.
Christoph,

3
@ryan Questo mi ricorda un reportage televisivo sul CERN che ho visto di recente: il team della telecamera e il giornalista sono stati portati davvero alle viscere del sistema e un momento uno dei ragazzi della camera ha quasi speronato un pulsante rosso di emergenza con il suo zaino - dando attacchi di cuore vicino allo staff che pensa ai costi di riavvio ...
Hagen von Eitzen,

183

Una termocamera può fare il lavoro e consentire di identificare dove si trova il surriscaldamento. Un dispositivo come questo ti permetterebbe di identificare anche l'origine di un incendio o di un incendio in una stanza piena di fumo.


30
Al giorno d'oggi le termocamere vanno benissimo e se gestisci una grande sala server sono uno strumento che vale la pena avere.
rackandboneman

16
Un TIC non è così costoso ed è molto utile in un datacenter o in una grande sala server. Non solo in caso di problemi come cavi o apparecchiature surriscaldati, ma anche come rilevamento preventivo o tempestivo del problema, ottimizzazione della refrigerazione, flusso d'aria, ecc.
ddalcero

39
Una pistola laser per la temperatura, come questa , è un'alternativa economica
Michael House

4
@mfinni Gli elettricisti spesso hanno anche termocamere. (Un controllo di imaging termico dei nostri pannelli di distribuzione di energia ogni anno, o dopo qualsiasi importante lavoro di cablaggio, era standard quando lavoravo in una società di hosting).
voretaq7,

3
Una termocamera ha limiti molto grandi: 1. Il campo visivo potrebbe impedire l'utilizzo 2. Il tuo ambiente potrebbe essere molto denso. [I grandi incendi saranno individuati, ma non quelli piccoli] 3. Sarà necessaria una media delle temperature per determinare una soglia
monksy

138

Non fai nessuna di queste cose che sono state dette. Lasci l'ambiente pericoloso perché tutto ciò che viene pompato attraverso l'intera stanza è pericoloso per la salute e può davvero rovinare i polmoni. Se c'è un odore acre di qualcosa che brucia nella stanza che non riesci a trovare, chiama (911 | 112 | 999 | qualunque numero di emergenza si adatti alla tua giurisdizione) e lascia che il fuoco (compagnia | dipartimento | vigili) lo risolva mentre loro sei in aria in bottiglia.

Le parti del computer contengono tutti i tipi di sostanze chimiche interessanti tra cui mercurio , cadmio , piombo e molta plastica negli involucri. Si noti che tutti i collegamenti che ho fatto spiegano come esposizioni di basso livello possono causare danni permanenti o persino la morte rapida. Questo è un ambiente che può essere immediatamente pericoloso per la vita e la salute .

... quindi davvero, se qualcosa sta bruciando, non passare ore ad annusare i fumi. Se non riesci a identificarlo e agisci immediatamente per contenerlo, esci.


18
Va aggiunto che se ciò accadesse in un "vero" datacenter con rilevatori di fumo integrati con l'aria condizionata e un sistema di estinzione installato, gli allarmi antincendio si spegnerebbero e la stanza verrebbe sigillata e inondata automaticamente di Argon o CO2, quindi non si poteva nemmeno pensare di correre in giro e annusare l'attrezzatura.
the-wabbit il

8
@ syneticon-dj Dipende dal tipo di rivelatori installati. I rilevatori di ionizzazione potrebbero aver innescato la soppressione del fuoco, ma ho lavorato in (e attualmente ospito apparecchiature in) luoghi che dispongono di rilevatori di fumo ottici - Questi richiedono fumo visibile (o almeno una buona foschia) prima di inciampare.
voretaq7,

3
Vorrei poter votare di più. a rischio di essere controverso, il pompiere "ottenere un professionista" è l'unica strada da percorrere.
user619714

19
Sì, come ex pompiere, non starei lì senza la mia attrezzatura. Anche quando un incendio è spento, siamo addestrati a rimanere impaccati a causa dei gas velenosi. Se chiamassi i professionisti, dovresti farlo anche tu!
Jeff Ferland,

1
@Michael i progetti che ho visto non si basavano su rilevatori di fumo a soffitto ma avevano rilevatori fotoelettrici nel flusso d'aria di ritorno. L'unica volta che l'ho visto innescare è stato durante una routine di test in cui il sistema argonite è stato staccato e una fonte di fumo è stata collocata in uno degli armadi. Funzionava come mi aspettavo che funzionasse. Per fortuna, non ho mai avuto a che fare con veri incendi.
the-wabbit,

76

Se il monitoraggio dell'UPS era corretto (di solito tramite SNMP), l'unità stessa avrebbe dovuto suonare le campane sul sistema di monitoraggio. In caso contrario, parlane con il tuo fornitore. Non funziona correttamente o il sistema di monitoraggio non è configurato correttamente.

Se qualcosa di attivo sta effettivamente bruciando, dovrebbe lamentarsi in qualche modo, o semplicemente essere fuori dalla rete, il che dovrebbe anche causare un allarme.

Se è qualcosa di simile a un vero power rail che brucia attraverso l'isolamento e non si trova su una PDU intelligente, allora torniamo alla tua domanda originale, che è "come trovo una cosa che brucia?" E penso che la risposta corretta sia "Colpisci l'EPO e scoprilo. I tuoi server di produzione probabilmente non sono abbastanza importanti per rischiare la vita".


13
Cosa significa EPO?
Midhat,

39
Spegnimento di emergenza ... il grande pulsante rosso che interrompe l'alimentazione della stanza. Principalmente per quando è in fiamme.
Concedi il

11
Un +1 enfatico, avrebbe votato +1.000. Premi il pulsante, evacua, aspetta, risolvi le cose in seguito. Fare affari come al solito con il fuoco e il fumo presenti (e cercare di risolvere qualsiasi cosa) è uno dei peggiori errori che un ingegnere può fare.
Deer Hunter

36
@chris Devo dissentire rispettosamente su "EPO, Leave, Wait" - L'attivazione dell'EPO e / o del rilascio dell'agente pulito per una stanza piena di attrezzi di produzione può essere molto spesso ciò che ci piace chiamare una mossa di limitazione della carriera . Se non c'è un incendio attivo visibile o una scia di fumo proveniente da alcune apparecchiature che eseguono alcune indagini iniziali, è di solito la cosa giusta. Naturalmente dovresti assolutamente essere pronto a scappare dalla stanza mentre premi i pulsanti rossi appropriati in qualsiasi momento della tua indagine.
voretaq7,

13
È probabile che anche un perfetto sistema di monitoraggio non l'avrebbe colto fino allo stesso momento in cui il pannello UPS ha detto "Sostituisci modulo" - detto questo, sicuramente vorrai che il tuo sistema di monitoraggio portasse tali cose alla tua attenzione. La prossima volta un modulo potrebbe non funzionare alle 19:30 di venerdì, quando non c'è nessuno, e l'avviso di monitoraggio ti farà tornare e affrontare il problema prima che si sviluppi in un'emergenza a tutti gli effetti. Se riesci a collegare il monitoraggio al tuo FACP, i tuoi sensori di fumo e / o calore potrebbero anche avvisarti che l'isolamento brucia le rotaie di alimentazione e simili.
voretaq7,

43

Questa è una di quelle situazioni in cui

XKCD Die Hard sysadmin

non si applica, è necessario chiamare un professionista

Pompiere in indumenti protettivi

Qualsiasi altra cosa è semplicemente stupida.


questa è chiaramente la risposta migliore. :)
Cittadino

@Navin No , non lo fanno i ragazzi dei vigili del fuoco.
user619714

40

Come qualcuno la cui carriera precedente era come tecnologia elettronica, ho esperienza con "odori brucianti" che non erano fuochi. Questo non è raro.

Non chiuderei un data center per un cattivo odore. Il fumo è un'altra cosa, qualcosa sta davvero bruciando (di solito, ma un condensatore al tantalio delle dimensioni di un pisello può riempire anche una stanza di fumo). È incredibile quanto odore possa produrre un componente fritto in un alimentatore.

Un termometro TIC o IR (uno strumento utile e molto più economico di un TIC) non lo mostrerebbe necessariamente in quanto il componente non genera molto calore ed è contenuto in una custodia. Ma controlla che i dispositivi non funzionino, usa i tuoi strumenti di monitoraggio. Per un odore del genere, il 95% delle volte sarà un alimentatore che influisce sulle prestazioni dell'intero dispositivo.


3
+1, gli alimentatori saltati sono comuni. Nella maggior parte dei datacenter con elevate portate d'aria il fumo viene soffiato via rapidamente ed è difficile individuare la fonte dell'odore. In una piccola stanza, tuttavia, l'odore può essere piuttosto cattivo e può diffondersi rapidamente in tutta la stanza.
Stefan Lasiewski,

19

Mi piacciono le immagini a infrarossi o le risposte del termometro, ma forse ciò che aiuterebbe anche è un vero "rilevatore di odori". Dopo tutto ciò che ha innescato la tua cautela è stato l'odore. Fumo, calore, IR ecc. Sono tutti surrogati.

Qualcosa di simile a questo: di Shinyei . Personalmente non li ho mai usati né li ho mai visti usati in un datacenter. Ma almeno teoricamente dovrebbe essere uno strumento pulito. Se hai i soldi da spendere per questo gizmo.

http://www.sca-shinyei.com/odormeter o http://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ

Ti dà una forza di odore e classificazione. Quindi dovrebbe essere possibile raggiungere l'odore. Il diavolo è nei dettagli ovviamente. Quanto è sensibile, mascherando odori di fondo spuri ecc.

Un vantaggio rispetto alle misurazioni basate esclusivamente sulla temperatura è che spesso l'odore si verifica in un punto o soglia molto prima. O se il componente surriscaldato è nascosto da un corpo / cablaggio nascosto ecc. È più facile rilevare la fuga di molecole rispetto a un punto caldo della linea di vista.

Un'altra situazione è un odore non legato al calore. Abbiamo già avuto una perdita nel circuito di raffreddamento e anche gli odori del liquido di raffreddamento erano peculiari. Non entrerò nemmeno nell'ormai antico caso di un roditore morto nelle condotte. :)

Sono rimasto sorpreso dalla sensibilità di questi sensori. Apparentemente H2S / mercaptani ecc. (Soliti colpevoli) sono rilevabili a livelli di sub ppm.

inserisci qui la descrizione dell'immagine

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.