Uno dei siti dei miei clienti ha ricevuto un fulmine diretto la scorsa settimana (per coincidenza venerdì 13! ).
Ero remoto al sito, ma lavorando con qualcuno in loco, ho scoperto uno strano modello di danno. Entrambi i collegamenti a Internet erano inattivi, la maggior parte dei server era inaccessibile. Gran parte del danno si è verificato nell'MDF , ma un IDF collegato in fibra ha perso anche il 90% delle porte su un membro dello stack. Erano disponibili abbastanza porte switch di ricambio per ridistribuire i cavi altrove e riprogrammare, ma ci sono stati tempi di inattività mentre abbiamo inseguito i dispositivi interessati.
Si trattava di un nuovo edificio / magazzino e molta pianificazione è stata dedicata alla progettazione della sala server. La sala server principale è esaurita da un UPS online APC SmartUPS RT 8000VA a doppia conversione, supportato da un generatore. C'era una corretta distribuzione dell'alimentazione a tutte le apparecchiature collegate. La replica dei dati fuori sede e i backup dei sistemi erano in atto.
In tutto, il danno (di cui sono a conoscenza) è stato:
- Scheda di linea a 48 porte non riuscita su uno switch di chassis Cisco 4507R-E .
Switch Cisco 2960 non riuscito in uno stack di 4 membri.(oops ... cavo impilabile allentato)- Diverse porte traballanti su uno switch Cisco 2960.
- Scheda madre e alimentatore HP ProLiant DL360 G7.
- Elfiq WAN link balancer.
- Un modem fax Multitech.
- Antenna Internet WiMax / Wireless fissa e iniettore di potenza.
- Numerosi dispositivi PoE connessi (telefoni VoIP, punti di accesso Cisco Aironet, telecamere di sicurezza IP)
La maggior parte dei problemi era legata alla perdita di un intero switch blade nel Cisco 4507R-E. Ciò conteneva parte della rete VMware NFS e l'uplink al firewall del sito. Un host VMWare non è riuscito, ma HA si è preso cura della VM una volta ripristinata la connettività di rete di archiviazione. Sono stato costretto a riavviare / spegnere e riaccendere un certo numero di dispositivi per cancellare stati di alimentazione funky. Quindi il tempo per il recupero è stato breve, ma sono curioso di sapere quali lezioni dovrebbero essere apprese ...
- Quali protezioni aggiuntive dovrebbero essere implementate per proteggere le apparecchiature in futuro?
- Come devo rivolgersi alla garanzia e alla sostituzione? Cisco e HP stanno sostituendo gli articoli sotto contratto. Il costoso bilanciatore di collegamenti WAN Elfiq ha un bizzarro sul loro sito Web che in pratica diceva " peccato , usa una protezione da sovratensione di rete ". (sembra che si aspettino questo tipo di errore)
- Sono stato in IT abbastanza a lungo per aver riscontrato danni da tempesta elettrica in passato, ma con un impatto molto limitato; ad es. un'interfaccia di rete per PC economica o la distruzione di mini switch.
- C'è qualcos'altro che posso fare per rilevare apparecchiature potenzialmente traballanti o devo semplicemente aspettare che emergano comportamenti strani?
- È stata solo una sfortuna o qualcosa di cui bisogna tener conto nel ripristino di emergenza?
Con abbastanza $$$, è possibile creare tutti i tipi di ridondanze in un ambiente, ma qual è un ragionevole equilibrio tra progettazione preventiva / ponderata e uso efficace delle risorse qui?