Sobrique spiega come l'intervento manuale fa sì che la soluzione proposta sia super -ottimale e ewwhite parla della probabilità di guasto di vari componenti . Entrambe le IMO danno ottimi punti e dovrebbero essere fortemente considerate.
C'è tuttavia un problema che nessuno sembra aver commentato finora, il che mi sorprende un po '. Proponi di:
rendere [l'attuale host hot spare] un cold spare, prendere i dischi rigidi e metterli nell'host primario e cambiare il RAID da 1 a 1 + 1.
Questo non ti protegge da tutto ciò che il sistema operativo fa sul disco.
Ti protegge davvero solo dai guasti del disco, che spostandoti dai mirror (RAID 1) ai mirror dei mirror (RAID 1 + 1) riduci notevolmente l'impatto di per cominciare. È possibile ottenere lo stesso risultato aumentando il numero di dischi in ciascun set di mirror (passare da RAID 1 a 2 dischi a RAID 1 a 4 dischi, ad esempio), oltre a migliorare molto probabilmente le prestazioni di lettura durante le normali operazioni.
Bene, diamo un'occhiata ad alcuni modi in cui questo potrebbe fallire .
- Supponiamo che tu stia installando aggiornamenti di sistema e che qualcosa non riesca a metà del processo; forse c'è un guasto all'alimentazione e all'UPS , o forse hai un incidente strano e colpisci un bug del kernel paralizzante (Linux è abbastanza affidabile in questi giorni, ma c'è ancora il rischio).
- Forse un aggiornamento introduce un problema che non hai riscontrato durante il test (esegui test degli aggiornamenti di sistema, giusto?) Che richiede un failover sul sistema secondario mentre ripari il primario
- Forse un bug nel codice del file system provoca scritture spurie e non valide sul disco.
- Forse un amministratore malizioso (o addirittura malizioso) lo fa
rm -rf ../*
o rm -rf /*
invece di rm -rf ./*
.
- Forse un bug nel tuo software provoca un grave danneggiamento del contenuto del database.
- Forse un virus riesce a intrufolarsi.
Forse, forse, forse ... (e sono sicuro che ci sono molti altri modi in cui il tuo approccio proposto potrebbe fallire.) Tuttavia, alla fine questo si riduce al tuo "vantaggio" i due set sono sempre in sincronia. A volte non vuoi che siano perfettamente sincronizzati.
A seconda di ciò che è esattamente accaduto, è quando si desidera che uno standby caldo o freddo sia pronto per essere acceso e ripetuto o backup adeguati. In entrambi i casi, i mirror RAID dei mirror (o mirror RAID) non ti aiutano se la modalità di errore comporta molto altro a parte l'errore del dispositivo di archiviazione hardware (crash del disco). Qualcosa come il raidzN di ZFS può probabilmente fare un po 'meglio per alcuni aspetti, ma per niente migliore in altri.
Per me, questo renderebbe il tuo approccio proposto un no-go dall'inizio se l'intento è una sorta di failover di emergenza.