Sto iniziando a vedere clienti con centinaia di terabyte di dati (nelle installazioni di SQL Server). Mentre il volume totale di dati in alcune aziende si avvicina a frazioni significative di un petabyte, mi piacerebbe tracciare la base di conoscenza collettiva là fuori per vedere cosa stanno facendo le persone con quella grandezza di dati per proteggerli.
Il problema ovvio è che l'archiviazione di più backup di molti dati è proibitivamente costosa, utilizzando l'archiviazione di classe enterprise, diamine, anche solo RAID-5.
Le opzioni che vedo sono le seguenti:
- Crea una copia speculare dei dati in un altro centro dati e invia continuamente differenze (utilizzando qualsiasi meccanismo disponibile per l'origine dati, ad esempio invio di log o mirroring del database con SQL Server)
- Esegui backup regolari utilizzando un pesante algoritmo di compressione (probabilmente adatto solo se i dati si prestano bene ad essere fortemente compressi)
- Eseguire backup frammentari delle parti critiche / che cambiano i dati.
- Non fare il backup dei dati e fidati degli dei della corruzione.
Sto vedendo l'opzione n. 4 essere adottata come predefinita e come esperto di HA / DR è davvero spaventoso, ma cosa posso consigliare in alternativa? Penso che il n. 1 sia l'approccio migliore, ma "Non credo" è la solita risposta quando vengono suggerite alternative diverse dal n. 4 e forse dal n. 3.
Ora, ovviamente, dipende dal tasso di variazione e dalla criticità dei dati. Non c'è bisogno di rispondere a questo dato che ero responsabile di tutte le funzionalità HA di SQL Server mentre lavoravo in Microsoft, quindi sono ben versato negli argomenti "dipende" - questa è la mia frase di parole :-)
Sarei molto interessato a conoscere le alternative che ho perso o a sentire che tutti gli altri sono nella stessa barca e non esiste alternativa realistica a spendere un sacco di soldi per più spazio di archiviazione.
Grazie in anticipo - verrà dato il dovuto credito a tutte le risposte ben ponderate ed espresse.