Ho cercato MTTF, MTBF, MTBR e MTBF per i server HP Gen9 in esecuzione nel nostro ambiente di produzione.
La radice della mia domanda, dovrebbe essere preoccupata o no.
Non riesco a ottenere dati validi poiché ogni server ha un mix di hardware.
Nella mia ultima azienda abbiamo eseguito circa 2000 server dell server r210 r410 r710 Direi che in media avevamo circa 5 server al giorno che avevano avuto una sorta di guasto. Quindi circa lo 0,25% del server è andato in crash e doveva essere sostituito un pezzo prima di poter essere riutilizzato.
La mia ultima azienda è stata installata in una coppia HA, infrastruttura N + 2, quindi non ha avuto alcun impatto sulla produzione. Siamo riusciti a sostituire i server e andare avanti
Nel mio attuale ufficio, gestiamo 9 server, (HP Gen9, 56 VM Hyper-V) non teniamo a portata di mano molte parti di ricambio, inoltre il datacenter non è gestito, quindi se qualcosa muore dobbiamo guidare circa 45 minuti per sostituire nulla.
Il mio CTO né il responsabile IT sembrano essere preoccupati, hanno avuto circa 2,5 giorni di inattività l'anno scorso, ho promosso che dobbiamo raggruppare i server ma non ne vedono la necessità.
C'è qualcosa di sbagliato o proprio qui? Non sono sicuro di cosa fare.
So che non è mia responsabilità se succede qualcosa è sul CTO. Questa è una società molto piccola, solo CTO, IT Manager, me stesso (sviluppatori) e 1 ragazzo dell'help desk.
Nonostante tutta l'esperienza nella gestione di un ambiente di produzione, è molto limitata, il modo in cui sono configurate molte cose chiamerei livello junior, né il mio CTO né il mio responsabile IT sapevano molto sul clustering prima di arrivare lì. Erano nel bel mezzo di un progetto per installare DR senza HA, contro il quale ho auspicato ma perso.