MTTF, MTBF, MTBR e MTBF per HP ProLiant Gen9

Ho cercato MTTF, MTBF, MTBR e MTBF per i server HP Gen9 in esecuzione nel nostro ambiente di produzione.

La radice della mia domanda, dovrebbe essere preoccupata o no.

Non riesco a ottenere dati validi poiché ogni server ha un mix di hardware.

Nella mia ultima azienda abbiamo eseguito circa 2000 server dell server r210 r410 r710 Direi che in media avevamo circa 5 server al giorno che avevano avuto una sorta di guasto. Quindi circa lo 0,25% del server è andato in crash e doveva essere sostituito un pezzo prima di poter essere riutilizzato.

La mia ultima azienda è stata installata in una coppia HA, infrastruttura N + 2, quindi non ha avuto alcun impatto sulla produzione. Siamo riusciti a sostituire i server e andare avanti

Nel mio attuale ufficio, gestiamo 9 server, (HP Gen9, 56 VM Hyper-V) non teniamo a portata di mano molte parti di ricambio, inoltre il datacenter non è gestito, quindi se qualcosa muore dobbiamo guidare circa 45 minuti per sostituire nulla.

Il mio CTO né il responsabile IT sembrano essere preoccupati, hanno avuto circa 2,5 giorni di inattività l'anno scorso, ho promosso che dobbiamo raggruppare i server ma non ne vedono la necessità.

C'è qualcosa di sbagliato o proprio qui? Non sono sicuro di cosa fare.

So che non è mia responsabilità se succede qualcosa è sul CTO. Questa è una società molto piccola, solo CTO, IT Manager, me stesso (sviluppatori) e 1 ragazzo dell'help desk.

Nonostante tutta l'esperienza nella gestione di un ambiente di produzione, è molto limitata, il modo in cui sono configurate molte cose chiamerei livello junior, né il mio CTO né il mio responsabile IT sapevano molto sul clustering prima di arrivare lì. Erano nel bel mezzo di un progetto per installare DR senza HA, contro il quale ho auspicato ma perso.

hyper-v hardware hp-proliant

— Anthony Fornito
fonte

HA costa denaro. Forse pensano che non valga la pena.

— Michael Hampton

Non preoccuparti delle cifre MTTF, MTBF, MTBR e MTBF ... perché dovrebbero applicarsi alle specifiche del tuo ambiente?

I server hanno ridondanze interne e possono essere estremamente stabili nella produzione. Ciò dipende dall'ambiente, dall'array / composizione del disco, dai tipi di dischi, dalla quantità di RAM, dalla configurazione della CPU, dalle caratteristiche termiche, dalla potenza, ecc.

L'impiego di una qualche forma di alta disponibilità può ridurre il potenziale di downtime e ti dà un posto per spostare i tuoi carichi di lavoro in caso di guasto.

Questa è una domanda di rischio finanziario e operativo.

Forse il costo incrementale per passare da un cluster all'altro è abbastanza alto da non avere senso per gli affari? Forse i 2,5 giorni di inattività (~ 99,3% di disponibilità) sono abbastanza buoni per la tua operazione. Dovresti concentrarti sulla protezione offsite e su buoni backup. Tutti i sistemi HP Gen9 sono sotto garanzia del produttore di oggi, in modo da non avere accesso a parti. Se hai RAID, alimentatori / ventole ridondanti e alimentazione stabile, hai coperto le aree più critiche.

Pensa a questo dal punto di vista finanziario e delinea i rischi, i costi associati e prova a creare un caso aziendale convincente per quello che desideri.

— ewwhite
fonte