Probabilità di guasto del telaio della lama

48

Nella mia organizzazione stiamo pensando di acquistare server blade, anziché server rack. Naturalmente anche i venditori di tecnologia li fanno sembrare molto simpatici. Una preoccupazione, che leggo molto spesso in diversi forum, è che esiste una possibilità teorica che il telaio del server si spenga, il che di conseguenza abbatterebbe tutti i blade. Ciò è dovuto all'infrastruttura condivisa.

La mia reazione a questa probabilità sarebbe quella di avere ridondanza e di due chassis invece di uno (molto costoso ovviamente).

Alcune persone (tra cui ad es. I fornitori HP) cercano di convincerci che è molto improbabile che il telaio si guasti, a causa di molti licenziamenti (alimentatore ridondante, ecc.).

Un'altra preoccupazione da parte mia è che, se qualcosa dovesse cadere, potrebbero essere necessari pezzi di ricambio, il che è difficile nella nostra posizione (Etiopia).

Quindi chiederei agli amministratori esperti, che hanno gestito il server blade: qual è la tua esperienza? Cadono nel loro insieme - e qual è la ragionevole infrastruttura condivisa che potrebbe fallire?

Tale domanda potrebbe essere estesa allo spazio di archiviazione condiviso. Ancora una volta direi che abbiamo bisogno di due unità di archiviazione invece di una sola - e ancora una volta i venditori affermano che queste cose sono così solide, che non si prevedono guasti.

Bene - non riesco quasi a credere che un'infrastruttura così critica possa essere molto affidabile senza ridondanza - ma forse puoi dirmi, se hai progetti basati su blade di successo, che funzionano senza ridondanza nelle sue parti principali (telaio, storage ... )

Al momento, guardiamo ad HP, poiché IBM sembra troppo costosa.

— ChrisZZ
fonte

3

Ottima domanda Pubblicherò la mia risposta e alcuni scenari di insuccesso nella vita più tardi oggi.

— ewwhite,

Hai visto cosa ha Dell nei suoi server C? ad es. il C6100 ha 4 nodi in una scatola 2U, un equivalente di uno chassis a 4 slot blade. Invece di uno chassis blade 10U, è possibile ottenere cinque server rack 2U. Non è più un singolo punto di errore ma si perdono i vantaggi del backplane. Forse HP / IBM hanno un prodotto equivalente.

— jqa,

49

C'è una bassa probabilità di completo fallimento dello chassis ...

Probabilmente riscontrerai problemi nella tua struttura prima di subire un guasto completo di un contenitore blade.

La mia esperienza è principalmente con custodie HP C7000 e HP C3000 blade. Ho anche gestito soluzioni blade Dell e Supermicro. Il venditore conta un po '. Ma in sintesi, le apparecchiature HP sono state stellari, Dell è andata bene e Supermicro era carente in termini di qualità, resilienza ed era solo mal progettato. Non ho mai riscontrato guasti sul lato HP e Dell. Il Supermicro ha avuto gravi interruzioni, costringendoci ad abbandonare la piattaforma. Su HP e Dells, non ho mai riscontrato un guasto completo allo chassis.

Ho avuto eventi termici. L'aria condizionata è fallita in una struttura di co-locazione che ha inviato temperature a 115 ° F / 46 ° C per 10 ore.
Sbalzi di corrente e interruzioni di linea: perdita di un lato di un feed A / B. Singoli guasti all'alimentazione. Di solito ci sono sei alimentatori nelle configurazioni del mio blade, quindi c'è un ampio avvertimento e ridondanza.
Singoli guasti del server blade. I problemi di un server non influiscono sugli altri nel contenitore.
Un incendio nel telaio ...

Ho visto una varietà di ambienti e ho avuto il vantaggio di installare in condizioni ideali per i data center, oltre che in alcuni luoghi più difficili. Sul lato HP C7000 e C3000, la cosa principale da considerare è che il telaio è completamente modulare. I componenti sono progettati per ridurre al minimo l'impatto di un guasto ai componenti che interessa l'intera unità.

Pensala in questo modo ... Il telaio principale C7000 è composto da gruppi frontplane (passivo) anteriore e backplane. L'involucro strutturale tiene semplicemente insieme i componenti anteriore e posteriore e supporta il peso dei sistemi. Quasi ogni parte può essere sostituita ... credimi, ne ho smontate molte. I principali licenziamenti riguardano la gestione di ventilatore / raffreddamento, alimentazione e collegamento in rete. I processori di gestione ( HP Onboard Administrator ) possono essere accoppiati per ridondanza, tuttavia i server possono funzionare senza di essi.

Contenitore completamente popolato - vista frontale. I sei alimentatori nella parte inferiore percorrono l'intera profondità del telaio e si collegano a un gruppo di backplane di alimentazione modulare nella parte posteriore della custodia. Le modalità di alimentazione sono configurabili: ad es. 3 + 3 o n + 1. Quindi la custodia ha sicuramente ridondanza di potenza.

Custodia completamente popolata - vista posteriore. I moduli di rete Virtual Connect nella parte posteriore hanno una connessione incrociata interna, quindi posso perdere un lato o l'altro e mantenere comunque la connettività di rete ai server. Esistono sei alimentatori sostituibili a caldo e dieci ventole sostituibili a caldo.

Contenitore vuoto - vista frontale. Nota che non c'è davvero nulla in questa parte del recinto. Tutte le connessioni vengono passate al midplane modulare.

Gruppo midplane rimosso. Notare i sei alimentatori per l'assemblaggio del piano centrale nella parte inferiore.

Assemblaggio del midplane. Qui è dove avviene la magia. Notare le 16 connessioni downplane separate: una per ciascuno dei server blade. Ho avuto guasti ai singoli socket / baie del server senza uccidere l'intero enclosure o influire sugli altri server.

Backplane (i) di alimentazione. Unità 3ø sotto il modulo monofase standard. Ho modificato la distribuzione di energia nel mio data center e ho semplicemente scambiato il backplane dell'alimentatore per gestire il nuovo metodo di erogazione dell'energia

Danneggiamento del connettore del telaio. Questo particolare involucro è stato lasciato cadere durante il montaggio, rompendo i pin di un connettore a nastro. Questo è passato inosservato per giorni, con il risultato che il telaio della lama in esecuzione ha preso FUOCO ...

Ecco i resti carbonizzati del cavo a nastro del piano centrale. Ciò controllava parte della temperatura del telaio e il monitoraggio ambientale. I server blade all'interno hanno continuato a funzionare senza incidenti. Le parti interessate sono state sostituite a mio piacimento durante i tempi di inattività programmati e tutto è andato bene.

— ewwhite
fonte

+1 per C7000. Ne abbiamo avuto uno in esecuzione negli ultimi due anni, solido, e non abbiamo mai avuto problemi, hardware o prestazionali, sull'involucro o sui blade.

— tombull89,

1

Devo essere d'accordo con questo: abbiamo avuto una varietà di chassis blade di Dell e sono stati praticamente a prova di proiettile. Penso che abbiamo avuto un modulo controller guasto su uno chassis e il risultato netto è che non siamo riusciti a gestire in remoto lo stesso telaio per il giorno impiegato per il supporto dell per spedirci un altro controller e un ingegnere per adattarlo. Nessun tempo di fermo della lama effettivo a causa di un errore o dell'operazione di sostituzione del controller.

— Rob Moir,

1

Sono d'accordo con @ewwhite. Sono stato in esecuzione c7000 per circa 8 anni senza sosta senza alcun guasto del telaio. Li abbiamo anche fatti funzionare a 130'F per un paio d'ore a causa di un guasto HVAC e non abbiamo avuto problemi. La cosa importante da tenere a mente è essere sicuri di dividere i carichi di energia su più pannelli di potenza e di dividere la rete su più switch per eliminare un singolo punto di errore. L'unica cosa che abbiamo mai avuto di brutto sono alcuni dischi rigidi del server blade, ma lo vedi anche nei server tradizionali.

— sig

20

Gestisco un numero limitato di server blade da otto anni e non ho ancora avuto un errore a livello di sistema che ha portato offline un numero di blade. Mi sono avvicinato molto a causa di problemi relativi all'alimentazione, ma non ho ancora avuto un guasto a livello di telaio non imputabile a fonti esterne.

La tua osservazione che il telaio rappresenti un singolo punto di errore è corretta, anche se al giorno d'oggi creano una grande quantità di ridondanze. Tutti i sistemi blade che ho usato hanno avuto un'alimentazione parallela ai blade e più jack di rete che attraversano percorsi separati, e nel caso di percorsi multipli Fibre-channel dal blade alle porte ottiche sul retro del rack. Anche il sistema informativo del telaio aveva più percorsi.

Con un appropriato ingegneria di rete (utilizzo ridondante della NIC, MPIO per l'archiviazione) gli eventi a singolo problema sono completamente sopravvivibili. Ai miei tempi con questi sistemi ho avuto i seguenti problemi, nessuno dei quali riguardava più di un solo blade:

Due alimentatori si guastano nel rack per lame. C'era abbastanza ridondanza negli altri 4 per supportare il carico.
Perdere una fase per un alimentatore trifase. Questi rifornimenti sono rari in questi giorni, ma le altre due fasi avevano abbastanza capacità per supportare il carico.
Perdere un ciclo di gestione tra chassis. Fu così per anni prima che un tecnico del fornitore in un'altra chiamata lo notasse.
Perdere completamente i circuiti di gestione tra chassis. Abbiamo perso l'accesso alla console di gestione, ma i server hanno continuato a funzionare come se niente fosse.
Qualcuno ha riavviato accidentalmente il backplane di rete back-of-rack. Tutto in quello chassis utilizzava schede di rete ridondanti, quindi non si è verificata alcuna interruzione del servizio; tutto il traffico è stato spostato sull'altro backplane.

Il punto di TomTom sul costo è molto vero però. Per raggiungere la piena parità di costo, il telaio del blade dovrà essere completamente carico e probabilmente non utilizzerà elementi speciali come gli switch back-of-rack. I rack per lame hanno senso in aree in cui hai davvero bisogno della densità perché sei limitato dallo spazio

— sysadmin1138
fonte

A parte il fatto che l'architettura SuperMicro Twin offre due computer per TU con due socket per computer, il che è simile a quello che si ottiene con la maggior parte dei blade. è decisamente molto denso;) L'unica più alta densità che conosco sono le lame Dell che usano il ponte di edera ... ma sono più limitate in confronto.

— TomTom,

@tomtom ma il gemello supermicro offre psus ridondante? Ne abbiamo appena creato uno e non ho visto quell'opzione da nessuna parte. Abbiamo comprato un psu di riserva freddo da avere a portata di mano per ogni evenienza.

— Jeff Atwood,

@JeffAtwood, non ho visto PSU ridondanti nei gemelli 1U di SuperMicro, ma la loro linea di gemelli gemelli 2U a 4 nodi li ha. Esempio .

— Charles,

Inoltre, chi se ne frega. Avere un alimentatore di riserva nel rack. La sostituzione richiede pochi secondi.

— TomTom il

14

Tale domanda potrebbe essere estesa allo spazio di archiviazione condiviso. Ancora una volta direi che abbiamo bisogno di due unità di archiviazione invece di una sola - e ancora una volta i venditori affermano che queste cose sono così solide, che non si prevedono guasti.

In realtà no. Finora hai avuto senso, questa frase li mette in "leggi le cose davanti ai tuoi occhi". L'HA con replica completa è una funzionalità aziendale nota per le unità di archiviazione. Il punto è che una SAN (l'unità di archiviazione è molto più complessa di uno chassis blade che alla fine è solo "stupido metallo". Tutto in uno chassis blade tranne alcuni backplane è sostituibile - tutti i moduli ecc. Sono sostituibili e le singole lame SONO nessuno può dire che nessuno afferma che il centro della lama di per sé offre elevata disponibilità.

Questo è molto diverso da una SAN che dovrebbe essere il 100% delle volte - in stato coerente - quindi ci sono cose come la replica ecc.

CHE DETTO: guarda i tuoi numeri. Ho preso in considerazione l'acquisto di lame da un po 'di tempo e non hanno MAI FATTO SENSO FINANZIARIO. Lo chassis è troppo costoso e le pale non sono molto più economiche rispetto ai normali computer. Suggerirei di guardare l'architettura SuperMicro Twin come alternativa.

— TomTom
fonte

Gemelli e gemelli gemelli (2U a 4 nodi) sono ottime alternative alle lame. Intel crea anche una linea di server twin e twin-twin.

— Charles,

@Charles Conosci i nuovi gemelli grassi? 8 macchine in 4 U;)

— TomTom

Ne ho visto uno, ma non ho avuto la possibilità di giocarci o valutarlo.

— Charles,

4

I server blade con cui ho avuto esperienza sono quelli di IBM. Quelle particolari sono totalmente modulari e c'è molta ridondanza integrata. Quindi, se qualcosa fallisce, sarà uno dei componenti come un alimentatore o uno switch modulare ecc. Ma ancora una volta, c'è ridondanza anche in quelli.

Da quando sono stato coinvolto con i blade IBM non ho mai visto un completo fallimento.

Con gli altri marchi sospetto che sarebbero stati costruiti in modo simile.
Sarebbe una buona idea parlare anche con un venditore e leggere molto.
È un grande investimento.

— opaco
fonte

1

Gli errori che portano a più interruzioni del server blade nello stesso contenitore sono paragonabili (con probabilità e causa) a errori che portano a più interruzioni del server nello stesso rack.

Impostazione iniziale per ridurre al minimo i singoli punti di errore (due fonti di alimentazione CA separate , ciascuna delle quali può gestire l'intero carico, funzionando con alimentatori CC separati, in modo che entrambe le metà possano gestire l'intero carico; due allegati di rete separati , uno dei che può gestire l'intero carico previsto, ecc.) e la differenza tra qualcosa che elimina tutti i blade in uno chassis o tutti i server 2U in un rack è molto piccola.

— mpez0
fonte

1

Una preoccupazione, che leggo molto spesso in diversi forum, è che esiste una possibilità teorica che il telaio del server si spenga, il che di conseguenza abbatterebbe tutti i blade. Ciò è dovuto all'infrastruttura condivisa.

Infatti! Circa 5 anni fa, durante la gestione di due enclosure blade HP Proliant di classe p, ho riscontrato diverse volte problemi a livello di telaio.

Ho avuto i server blade che non erano in grado di accendersi, se fossero stati spenti (i server non sono spenti spesso, ma sono diventati un problema molto reale per noi lo stesso). Ho avuto i server improvvisamente spenti e non potendo essere riacceso. Alla fine, ho spento tutti i server e non sono riuscito a riaccenderli.

A quanto ricordo, praticamente tutti i problemi sono stati attribuiti a backplane o controller di alimentazione difettosi. Li abbiamo sostituiti più volte e il messaggio non specifico e non ufficiale che ho ricevuto dai tecnici era che avevano i loro problemi con questa generazione di custodie per lame.

Allora decisi che i vantaggi dei server blade non valevano la pena rischiare, se avessi avuto qualcosa da dire negli acquisti futuri.

Avanti veloce al mio prossimo datore di lavoro, e al mio attuale, per quella materia. Avevano già in esecuzione custodie HP Proliant di classe c, quindi la mia calda sensazione di calore per le lame non contava davvero. Nei 5 anni in cui ho avuto a che fare con gli involucri della Classe c, non ho mai provato nulla di simile a me con la Classe p, in cui un intero involucro ha fallito con me. Hanno funzionato senza grossi problemi.

(Tranne il tempo in cui una tempesta di pioggia ha mandato pioggia attraverso il tetto, 4 piani, un piccolo buco nel sigillo della sala computer, lungo un cavo e nel telaio)

— abstrask
fonte

-1

Sia il telaio DELL che HP Blade mancano di un piano intermedio ridondante. È qui che IBM Bladecenter dimostra di essere un vincitore. Per quanto ne so, è l'unico telaio a pale che fornisce un piano intermedio ridondante. Sebbene HP offra una fantastica suite di software di gestione per i blade, abbiamo acquistato un Bladecenter E per la nostra azienda solo per evitare un singolo punto di errore dell'intero chassis.

— Arun Shetty
fonte

Questo è ciò che mi dicono i materiali di marketing IBM; che sono l'unico fornitore con una soluzione blade completamente ridondante. Tuttavia, dopo aver letto gli altri messaggi in questo thread, sembra che anche le soluzioni HP lo offrano.

— Martijn,