Host di riserva hot vs host di riserva cold?

8

Abbiamo diversi host in cui abbiamo un host hot spare identico, che è patchato e aggiornato, quindi è molto vicino avere lo stesso software e la stessa configurazione. In caso di guasto, il cavo di rete viene commutato e il server DHCP viene aggiornato con il nuovo indirizzo MAC. Questo è il caso migliore, poiché di solito ce ne sono alcuni che richiedono modifiche.

Penso che sia uno spreco di energia elettrica avere un host di riserva caldo e una perdita di tempo per mantenerlo, e poiché sono necessarie modifiche alla configurazione in caso di failover, vorrei chiedere quanto segue:

Gli host hot spare sono vecchia scuola e ora ci sono modi migliori?

Invece di avere un host hot spare, avrebbe senso trasformarlo in un cold spare, prendere i dischi rigidi e metterli nell'host primario e cambiare il RAID da 1 a 1 + 1. In caso di guasto, tutto ciò che dovrei fare è cambiare i cavi di rete, aggiornare il server DHCP, prendere i dischi rigidi e inserirli nella riserva fredda e accenderli. Il vantaggio, a mio avviso, è che i dischi 2x2 sono sempre sincronizzati, quindi solo un host da mantenere e non sono necessarie modifiche alla configurazione in caso di failover.

È una buona idea?

— Jasmine Lognnes
fonte

1

Questi "host" fisici sono con servizi effettivi o host di macchine virtuali con un gruppo di ospiti?

— Nathan C

2

Con VMware FT e Hyper-V Replica disponibili come opzioni di virtualizzazione (così come il semplice vecchio HA) trovo l'idea di avere un hot spare dedicato per un singolo host per scopi un po 'fuori passo.

— joeqwerty,

6

Sobrique spiega come l'intervento manuale fa sì che la soluzione proposta sia super -ottimale e ewwhite parla della probabilità di guasto di vari componenti . Entrambe le IMO danno ottimi punti e dovrebbero essere fortemente considerate.

C'è tuttavia un problema che nessuno sembra aver commentato finora, il che mi sorprende un po '. Proponi di:

rendere [l'attuale host hot spare] un cold spare, prendere i dischi rigidi e metterli nell'host primario e cambiare il RAID da 1 a 1 + 1.

Questo non ti protegge da tutto ciò che il sistema operativo fa sul disco.

Ti protegge davvero solo dai guasti del disco, che spostandoti dai mirror (RAID 1) ai mirror dei mirror (RAID 1 + 1) riduci notevolmente l'impatto di per cominciare. È possibile ottenere lo stesso risultato aumentando il numero di dischi in ciascun set di mirror (passare da RAID 1 a 2 dischi a RAID 1 a 4 dischi, ad esempio), oltre a migliorare molto probabilmente le prestazioni di lettura durante le normali operazioni.

Bene, diamo un'occhiata ad alcuni modi in cui questo potrebbe fallire .

Supponiamo che tu stia installando aggiornamenti di sistema e che qualcosa non riesca a metà del processo; forse c'è un guasto all'alimentazione e all'UPS , o forse hai un incidente strano e colpisci un bug del kernel paralizzante (Linux è abbastanza affidabile in questi giorni, ma c'è ancora il rischio).
Forse un aggiornamento introduce un problema che non hai riscontrato durante il test (esegui test degli aggiornamenti di sistema, giusto?) Che richiede un failover sul sistema secondario mentre ripari il primario
Forse un bug nel codice del file system provoca scritture spurie e non valide sul disco.
Forse un amministratore malizioso (o addirittura malizioso) lo fa rm -rf ../*o rm -rf /*invece di rm -rf ./*.
Forse un bug nel tuo software provoca un grave danneggiamento del contenuto del database.
Forse un virus riesce a intrufolarsi.

Forse, forse, forse ... (e sono sicuro che ci sono molti altri modi in cui il tuo approccio proposto potrebbe fallire.) Tuttavia, alla fine questo si riduce al tuo "vantaggio" i due set sono sempre in sincronia. A volte non vuoi che siano perfettamente sincronizzati.

A seconda di ciò che è esattamente accaduto, è quando si desidera che uno standby caldo o freddo sia pronto per essere acceso e ripetuto o backup adeguati. In entrambi i casi, i mirror RAID dei mirror (o mirror RAID) non ti aiutano se la modalità di errore comporta molto altro a parte l'errore del dispositivo di archiviazione hardware (crash del disco). Qualcosa come il raidzN di ZFS può probabilmente fare un po 'meglio per alcuni aspetti, ma per niente migliore in altri.

Per me, questo renderebbe il tuo approccio proposto un no-go dall'inizio se l'intento è una sorta di failover di emergenza.

— un CVn
fonte

Ecco a cosa servono i backup e la gestione della configurazione, no?

— ewwhite,

@ewwhite Assolutamente, ma dovrebbe essere molto più semplice se necessario passare a un host secondario che ha già una configurazione (presumibilmente buona) (software e impostazioni) piuttosto che rompere un mirror RAID, spostare fisicamente i dischi, fare qualsiasi le necessarie modifiche alla configurazione (cablaggio di rete, DNS, impostazioni IP, ...), e quindi devono risolvere tutto ciò che è andato storto richiedendo di passare prima che l'host di standby funzioni. A quel punto potresti anche sistemarlo sul posto. (O in particolare se si è in grado di eseguire VM ripristinare un'istantanea rilevante.)

— un CVn

Oh, sicuramente. Se ho soluzioni di replica, c'è anche una considerazione RPO / RTO e offset (10-15 minuti) per coprire gli scenari di cui sopra.

— ewwhite,

@ewwhite Non sto discutendo il tuo punto (e in realtà ho votato a favore della tua risposta), solo aggiungendo un altro modo in cui non ho visto nessuno menzionare come la soluzione proposta dall'OP potrebbe (non) produrre il risultato più probabile desiderato, che è il recupero da guasti. Sono stato davvero sorpreso di trovare la mia risposta accettata.

— un CVn

5

Sandra lavora in modi misteriosi ...

— ewwhite l'

11

Sì, è un po 'vecchia scuola. L'hardware moderno non fallisce così spesso. Concentrati sul rendere le tue applicazioni più altamente disponibili (non sempre possibile) o sugli elementi necessari per rendere i tuoi host più resilienti ...

Per gli host:

Acquista hardware migliore.
Assicurati di avere contratti di supporto.
REGISTRA i contratti di supporto dei tuoi server (i pezzi di ricambio vengono stoccati localmente in base ai dati di registrazione!)
Utilizzare alimentatori ridondanti, RAID (hardware?), Ventole ridondanti.
Se il server non è in grado di supportare le funzionalità ridondanti sopra indicate, tenere a portata di mano uno chassis o componenti di ricambio per poter effettuare l'autoriparazione in caso di guasto.

In ordine decrescente di frequenza degli errori, vedo: dischi, RAM, alimentatori, ventole il più delle volte ... A volte scheda di sistema o CPU. Ma questi ultimi due sono i punti in cui dovrebbe entrare il tuo contratto di supporto.

— ewwhite
fonte

Le parti mobili muoiono per prime - per fortuna i dischi RAID, altrimenti sarebbero il mio fallimento più frequente.

— Sobrique,

2

+1 solo per "REGISTRA i contratti di supporto dei tuoi server". Anche nella mia esperienza limitata è più comune di quanto si possa pensare che io chiamo supporto durante una situazione SHTF in un nuovo sito e il supporto non ha idea del particolare hardware esistente e ha un contratto ad esso collegato.

I server in questione sono tutti IBM, e ora probabilmente hanno 5 anni. Finora abbiamo avuto solo una scheda madre e un errore della CPU.

— Jasmine Lognnes,

1

IBM e HP sono solidi. Dell a volte. Se Supermicro, consiglierei di conservare DUE ricambi per server;)

— ewwhite

1

Sui miei server HP, le soglie ECC iniziali vengono superate e attivano un avviso . La RAM viene solitamente sostituita prima che ci sia un impatto sulle applicazioni. Lo vedo circa 10 volte l'anno su alcune centinaia di server.

— ewwhite,

9

È piuttosto inefficiente, non da ultimo a causa della dipendenza dall'intervento manuale per effettuare il passaggio.

Ho lavorato in luoghi che gestiscono un sito DR caldo - letteralmente, server identici a quelli primari, pronti a partire immediatamente. Tuttavia, la commutazione DR è un processo automatizzato: non stiamo parlando di cavi, un po 'di armeggi e di commutazione, ma un processo quando premiamo il pulsante capovolge tutto da un sito all'altro.

Questo approccio è terribilmente costoso, ma è una decisione aziendale - rischio accettabile rispetto al denaro necessario per raggiungere l'obiettivo. Di norma, esiste una curva esponenziale sull'obiettivo del tempo di recupero: più si avvicina allo zero, più costa.

Ma questa è la tua domanda, davvero. Qual è l'obiettivo del tempo di recupero e qual è il modo più efficace per raggiungerlo. Attendere l'avvio di un server richiederà alcuni minuti. Quanto tempo impiega qualcuno a eseguire le regolazioni e le "attività di ripristino" quando viene visualizzato alle 4 del mattino?

E quanto dura un'interruzione accettabile?

Suggerirei che se stai facendo un 'recupero a caldo' vuoi pensare al clustering. Puoi essere abbastanza economico sul clustering con un buon uso di VMWare - "failover" su una VM - anche da un fisico - significa che non stai eseguendo hardware ridondante. (Bene, N + 1 anziché 2N).

Se l'RTO è abbastanza lungo, spegnere la scatola. È possibile che l'RTO sia sufficiente e che una ricostruzione a freddo dal backup sia corretta.

— Sobrique
fonte

2

+1 solo per la curva dei tempi di recupero; Dico sempre ai clienti che hanno un tempo di attività del 99% per il costo del kit e della configurazione, ma ogni 9 in più di cui decidono di aver bisogno aumenterà il costo da qualche parte tra due e dieci volte.

— MadHatter,

I tempi di inattività durante la notte non sono buoni, ma si accetta l'acquisto del CEO. Durante l'orario di lavoro, 30 minuti probabilmente vanno bene ogni 6 mesi. Il failover su una VM è un'idea interessante. Può essere fatto con KVM? Avrò ancora bisogno di mantenere la VM con patch e modifiche di configurazione, o può essere automatizzata?

— Jasmine Lognnes,

La macchina virtuale è una macchina virtuale, nulla a che fare con una KVM. (Keyboard / Video / Mouse). E sì, dovresti mantenere aggiornata l'istanza del sistema operativo e controllare che tutto funzioni normalmente. Ma dovresti essere in grado di utilizzare lo stesso meccanismo di aggiornamento presente sul dispositivo principale.

— Sobrique,

Sebbene seriamente, con che frequenza il tuo server è caduto? Intendo completamente, per motivi legati all'hardware? La maggior parte dei componenti hardware di livello server eseguono la resilienza N + 1.

— Sobrique,

3

@sobrique in questo contesto KVM probabilmente significa macchina virtuale basata su kernel - linux-kvm.org

— Grant

5

Il fatto che si tratti della vecchia scuola non rende necessariamente un cattivo uso una cattiva idea.

La tua preoccupazione principale dovrebbe essere la logica, quali sono i rischi che corri e in che modo eseguirli con un hot spare li mitiga. Perché nella mia percezione il tuo hot spare risolve solo i guasti hardware, che non è raro, né l'unico rischio operativo che corri, né il più probabile. La seconda preoccupazione è che le strategie alternative offrono una maggiore riduzione del rischio o risparmi significativi.

L'esecuzione di un hot spare con più passaggi manuali di failover richiederà molto tempo ed è probabile che vada storto, ma mi sembra anche un failover automatizzato con le suite di cluster HA che si trasformano in importanti cluster *.

Un'altra cosa è che lo standby a caldo o freddo nella stessa posizione non garantisce la continuità aziendale in caso di disastro locale.

— HBruijn
fonte

2

Il concetto di avere una riserva calda o anche fredda dipende dal modo in cui le applicazioni sono costruite in primo luogo.

Quello che voglio dire è che se l'applicazione è stata costruita in modo tale che il carico di dati e servizi sia distribuito su più macchine, allora il concetto di ogni singola macchina che abbatte il sistema dovrebbe sparire. In quella situazione non è necessario un hot spare. Invece hai bisogno di una capacità in eccesso sufficiente per gestire quando una singola macchina / componente muore.

Ad esempio, un'applicazione Web standard richiede generalmente un server Web e un server di database. Per i server Web, basta caricare il saldo 2 o più. Se uno muore, niente di grosso. Il database di solito è più difficile in quanto deve essere progettato per essere multi-master con tutti i dati sincronizzati tra le macchine partecipanti. Quindi, invece di un singolo server DB, si ottengono 2 (o più) che soddisfano entrambi le esigenze dei dati. I grandi fornitori di servizi come Google, Amazon, Facebook, ecc. Hanno seguito questa strada. I tempi di sviluppo sono più costosi, ma paga dividendi se è necessario ridimensionarli.

Ora, se la tua applicazione non è strutturata in questo modo o è semplicemente proibitivo adattarla in modo retrò all'app, allora probabilmente vorrai un hot spare.

— Non me
fonte