In che modo le grandi aziende eseguono il backup dei propri dati?


8

In che modo le aziende che gestiscono grandi quantità di dati, ad esempio Google o Facebook, eseguono il backup di tutto?

Secondo questo articolo della piattaforma Google su Wikipedia, Google ha circa 450.000 + server ciascuno con un disco rigido da 80+ GB. Sono molti dati. Conservano davvero 1+ GB di backup per ogni 1 GB di dati?


Dubito che Boogle esegua il backup del software dei server in quanto sembrano essere in grado di creare un server dal bare metal molto rapidamente. Sembrano avere copie di backup dei dati dell'utente.
BillThor,

Bene, Google ha più di 1 milione di server (dal 2007): pandia.com/sew/481-gartner.html
Kedare

Penso che tu faccia UN UNICO errore fondamentale: GOogle ha MOLTI server che sono tutti SIMILI. Nodi di server X che servono l'indice. Non eseguire il backup dello stesso indice un milione di volte.
TomTom

Risposte:


8

Dipende dal tuo scopo.

Se stai cercando backup per il ripristino di emergenza (server esploso, datacenter bruciato, ecc.), La risposta breve è che potrebbero non eseguire affatto i backup. Abbiamo un cliente che si occupa di dati governativi sensibili e parte del loro mandato è che non ci è permesso eseguire backup o backup su supporti rimovibili . È consentita la replica live su un sito di DR e basta. Entrambi i siti sono coperti dallo stesso livello di sicurezza fisica e logica. Il trucco qui è che se rovino qualcosa sul Sito A, allora viene replicato sul Sito B quasi istantaneamente.

Se si parla di backup da un punto di vista dell'integrità dei dati (ad esempio, la tabella Clienti è stata eliminata accidentalmente ed è già replicata nel sito DR), allora i nastri LTO-5 in una grande libreria di nastri sono spesso la scelta giusta. Con un massimo di 3 TB per nastro e più nastri in una libreria di nastri, è possibile eseguire rapidamente il backup di grandi quantità di dati (qui si fa riferimento a Mbps, per il backup di 25 TB di dati potrebbero essere necessarie molte ore).

Qualsiasi suite di backup decente eseguirà un'elevata compressione e de-duping, riducendo notevolmente la quantità di spazio di archiviazione richiesta. Ho visto una stima per uno strumento di backup di Exchange compresso e de-duplicato una volta che richiedeva un rapporto di 15: 1 (15 GB di dati archiviati in 1 GB di backup).

Dubito fortemente che Google si preoccupi dei backup di molti dei loro dati dei motori di ricerca, perché la maggior parte è sostituibile ed è distribuita in modo così ampio che se perdono anche una porzione significativa, o forse anche un intero, il sistema rimane online grazie alle route BGP di failover.


In realtà, sembra che Google esegua il backup di una gran quantità di dati metrici su nastro , che non è proprio quello che mi aspettavo:

Parte della libreria di nastri di Google


2

La maggior parte dei loro dati è archiviata sul proprio filesystem GFS e GFS richiede che vi siano almeno tre copie di ogni blocco da 64 MB che crea un file (GFS utilizza blocchi da 64 MB). Detto questo, non credo che si preoccupino dei backup, poiché hanno almeno tre copie di ogni file e i blocchi sul nodo in errore possono essere rapidamente sostituiti semplicemente replicando i dati da una qualsiasi delle restanti due copie valide in un nuovo nodo.

Per ulteriori informazioni, dai un'occhiata a http://labs.google.com/papers/gfs.html


1
La ridondanza aumenta la disponibilità, ma non è esattamente un backup (e non lo hai chiamato così) perché è facile da sovrascrivere.
Tobu,

Sì, è un buon punto. Il mio punto era semplicemente che probabilmente non avevano bisogno di backup per la maggior parte dei loro dati.
Ipozgaj,

0

La risposta di farseeker è buona, ma penso che potrebbe essere chiarito pensandoci da questa prospettiva: cosa stai cercando di ripristinare? È per DR? Qual è il tempo di recupero richiesto? Ad esempio, supponiamo che la tua azienda si basi su un database di server sql da 25 TB. In caso di errore o errore dei dati (tabella eliminata, db danneggiato, ecc.) Il CTO vuole essere in grado di ripristinare il database in meno di un'ora. In caso di guasto del sito sono necessarie 2 ore.

A prima vista sembra difficile ma non impossibile. Poiché sai che la tua strategia di backup deve essere ripristinata entro un'ora, sai che non ripristinerai i backup completi, dovrai collaborare con i team di dba per assicurarti che il DB sia partizionato in blocchi gestibili. Inoltre, eseguirai frequenti backup dei registri trans. Per DR dovrebbe guardare una strategia di replica (forse una versione ritardata con i dati di registro replicati in tempo reale ma non applicati). Come ha detto farseeker, dipende dallo scopo e tale scopo dovrebbe essere quello di fare una qualche forma di recupero.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.