Come eseguire il backup di 20 + TB di dati?


86

Abbiamo un server NAS presso l'azienda per cui lavoro che viene utilizzato per l'archiviazione di sessioni fotografiche. Ogni sessione è di circa 100 GB. Negli ultimi due anni questo server ha accumulato oltre 10 TB di dati e stiamo aumentando esponenzialmente la quantità di servizi fotografici. Stimo che entro la fine del prossimo anno avremo 20+ TB memorizzati su questo NAS. Attualmente stiamo eseguendo il backup di questo server su nastro utilizzando i nastri LTO-5 con Symantec BackupExec. Poiché le dimensioni di questo server sono aumentate, i backup completi di questo server non vengono completati dall'oggi al domani. Qualcuno ha qualche suggerimento su come eseguire il backup di questa quantità di dati? Dovremmo eseguire il backup su nastro? Ci sono altre opzioni che potrebbero essere migliori?


36
Perché esegui backup completi ogni notte? Perché non eseguire un backup completo una volta alla settimana ed eseguire backup incrementali i restanti 6 giorni a settimana?
joeqwerty,

9
Questo è quello che stiamo facendo, scusate non ho detto che ... il pieno settimanale è quello che non sta completando.
Jesus Fidalgo,

6
Un full settimanale deve essere completato dall'oggi al domani? Non è raro che i settimanali impieghino più di 24 ore per un set di dati sufficientemente grande.
Stefan Lasiewski,

2
Che tipo di NAS stai usando?
ewwhite,

6
Sei sicuro che l'aumento dei servizi fotografici sia esponenziale ?
Gerrit,

Risposte:


114

Devi fare un passo indietro e smettere di pensare "Ho 20 TB sul mio NAS che devo fare il backup!" e sviluppare una strategia di archiviazione che tenga conto della natura dei tuoi dati:

  • Da dove viene e quanti nuovi dati stai ricevendo? (hai questo nella tua domanda)
  • Come vengono utilizzati i dati dopo averli? Le persone stanno modificando le immagini? Conserva gli originali e generi versioni modificate?
  • Per quanto tempo è necessario conservare tutti i dati? Le persone stanno ancora apportando modifiche alle immagini di 2 anni fa?

A seconda delle risposte alle ultime due domande, probabilmente avrai bisogno di più di un sistema di archiviazione che di un sistema di backup radicalmente diverso.

I dati che sono statici (ad es. Immagini di 2 anni che conservi "per ogni evenienza") non devono essere sottoposti a backup ogni notte, o anche ogni settimana, devono essere archiviati. Quello che fai in realtà potrebbe essere più complesso, ma concettualmente, tutte le vecchie foto possono essere scritte su nastro (più copie!) E non più salvate.

Sulla base dei tuoi commenti, alcuni pensieri aggiuntivi:

  • Dal momento che si mantengono intatti gli originali di ogni scatto e si lavora su una copia, e supponendo che almeno alcune delle immagini originali siano disoneste, si potrebbe essere in grado di ridurre della metà la quantità di dati di cui è necessario eseguire il backup.

  • Se non riesci ancora a completare un backup completo in qualsiasi intervallo di tempo, un modo comune per accelerare le cose è quello di fare prima un backup da disco a disco e poi copiare il backup impostato su nastro.


1
Le riprese originali vengono memorizzate intatte, quindi un'altra copia del servizio fotografico viene utilizzata per la modifica. Potrebbe essere necessario conservare i dati per circa 2 anni.
Jesus Fidalgo,

20
+1 Ben detto. Sono sorpreso di come la differenza tra Backup e Archive sia, in generale, poco compresa. Faccio backup completi e incrementali del mio sistema e dati effimeri come e-mail e documenti, ma archivio la mia fotografia (1,2 TB e in crescita :-). Vorrei poter dare un altro +1 anche per il suggerimento da disco a disco.
Ex Umbris,

8
+1 Scommetto che l'80% dei dati sul NAS non viene mai usato più di una volta.
Stefan Lasiewski,

+1 L'opzione migliore qui è quella di eseguire trasferimenti delta da disco a disco giornalieri e anche ogni ora per acquisire le modifiche e quindi spedire i backup completi o incrementali a un archivio o fornitore / posizione fuori sede su base settimanale o semi-settimanale. In passato eseguivamo backup delta dei nostri file SQL ogni 15 minuti per ridurre la perdita di dati in uno scenario di DR.
Brent Pabst,

12

Hai due opzioni:

Opzione 1:

  1. Acquista un altro NAS
  2. Dai ai tuoi utenti l'accesso RO al nuovo_NAS
  3. Sposta tutti i file più vecchi di 2 anni in new_NAS
  4. Continuare a eseguire il backup di old_NAS come al solito
  5. Ogni 6 mesi sposta i file di età superiore a 2 anni su new_NAS

Opzione 2:

  1. Acquista un altro NAS
  2. Esegui rsyncogni ora: old_NAS -> new_NAS

    o, meglio usare qualcosa come rdiff-backup che rsync + mantiene i delta con le modifiche ai file (è possibile ripristinare le versioni precedenti dei file)

    rdiff-backup  user1@old_NAS::/source-dir    user2@new_NAS::/dest-dir
    
  3. Ogni 6 mesi pulisci i vecchi file con qualcosa di simile:

    rdiff-backup --remove-older-than 2Y    old_NAS::/dest-dir
    

2

Perché i backup devono essere completati dall'oggi al domani? Prestazioni del fileserver? Potresti essere in grado di limitare la larghezza di banda del tuo software di backup per limitare l'impatto durante il giorno. O dedicare un'interfaccia sul NAS per parlare con l'unità a nastro per limitare l'impatto su altro traffico.

Puoi eseguire discariche complete nei fine settimana e fare solo incrementi durante la settimana? Se il problema sta cambiando i nastri nel fine settimana quando non c'è nessuno in giro, una libreria / scambiatore di nastri economica costa molto meno che pagare qualcuno per cambiare i nastri.

Riesci a segmentare i tuoi dati in più gruppi che sono abbastanza piccoli da completare nella finestra di backup?

Abbiamo circa 50 TB di dati su un nostro NAS e ci vuole più di una settimana per ottenere un dump completo dell'intera cosa usando 2 unità nastro (un volume impiega quasi una settimana perché contiene molti piccoli file). Quello che facciamo è replicare i nostri dati su un secondo NAS. Il nostro NAS secondario è on-site (ma in un datacenter diverso da quello primario), quindi eseguiamo lo spooling dei dati su nastro per il backup off-site. Eseguiamo backup da quel NAS secondario in modo che i backup non rallentino nessuno.

Se riesci a raggruppare il NAS secondario abbastanza lontano, può trattarsi del backup, senza bisogno di nastri.


1

Sono solo in dubbio sulla dimensione di ogni sessione di tiro, è davvero 100 GB / sessione? Quante sessioni fa la tua azienda ogni mese?

Dato che per lo più stai memorizzando vecchie sessioni che non verranno utilizzate frequentemente, ecc., E probabilmente non è necessario recuperare tali informazioni frequentemente, ti suggerirei di utilizzare i servizi di alcune aziende per occuparti di tale compito per te .

Solo per esempio, archiviare quei 20 TB utilizzando un servizio online come Amazon Glacier costerebbe un po 'più di $ 200 al mese. Se è necessario recuperare frequentemente tali archivi o addirittura ripristinarli per intero, si verificherebbe un limite di tempo / costo. Se memorizzi queste cose "per essere sicuri che siano memorizzate", forse l'utilizzo di una terza parte potrebbe semplificarti la vita (e persino più economico dell'acquisto di un altro NAS, nastri, ecc.)


1
100 GB per sessione mi sembrano un po 'alti, ma non irragionevoli. In genere avevamo una sessione di oltre 32 GB in cui lavoravo e le nostre apparecchiature erano di livello medio.
Tom Marthenal,

1

full backups of this server are not completing overnight
Quindi provare i backup incrementali? Un backup completo ogni xx giorni, incrementale il resto.

I dischi rigidi sono economici, più veloci dei nastri e possono essere utilizzati per il backup.

Inoltre ora ci sono buone alternative per i backup su cloud, quindi non è necessario continuare ad aggiungere nastri più veloci.
Per esempio:


Guarda i commenti: sono i full settimanali che non vengono completati. Inoltre, i backup su cloud per 20 TB di dati ... non è una buona idea. L'opzione "economica" di Amazon Glacier costerà ~ 2500 / anno e il recupero di tutti quei dati costerà ~ $ 36.000.
HopelessN00b,

In realtà non è molto.
Sirex,

1
Immagino sia una questione di opinione se $ 2400 / anno è molto per 20 TB di spazio di archiviazione relativamente sicuro e completamente privo di manutenzione. Nessun consumo di energia, nessun raffreddamento, nessun hardware difettoso, nessuno SLA, non occupa spazio nel rack. E come con la maggior parte dei sistemi, dovresti aspettarti circa 0 operazioni di recupero completo. E se hai bisogno di un recupero il prezzo è più simile a $ 1800 che a $ 36000 (non sono sicuro da dove hai ottenuto quel numero).
Tedd Hansen,

Per il ghiacciaio, $ 36.000 è abbastanza vicino. L'ho calcolato approssimativamente come $ 42K per i costi di recupero su 20 TB. Tuttavia non è ancora molto. La larghezza di banda è più un problema.
Sirex,

1

Penso che la migliore soluzione per questo sia ciò che facciamo con i nostri dati sui salari, che dovrebbe richiedere uno sforzo minimo per l'implementazione.

  • Inizialmente, viene mantenuto con il resto dei dati del server di cui è stato eseguito il backup ogni giorno. Il nostro periodo di conservazione su tali backup è di 13 mesi.

  • Una volta che non ci aspettiamo più che i dati debbano essere modificati, (due periodi di pagamento più tardi, IIRC), i dati vengono (tramite script) salvati in un volume di archivio escluso dai backup regolari.

  • Il volume dell'archivio viene sottoposto a backup su nastro ogni anno e i nastri vengono inviati a Cintas per l'archiviazione indefinita.

Questo ci consente di avere un facile accesso online a quei dati immutabili (quindi non dobbiamo chiamare in un nastro ogni volta che un commercialista vuole guardare qualcosa), mantenendo archivi indefiniti di dati fuori sede che potremmo dover conservare per sempre e senza distruggere il nostro sistema di backup. Sembra che lo stesso tipo di configurazione possa funzionare per te, anche se potresti voler regolare la quantità di dati che conservi online, a seconda delle tue necessità di accedere a questi dati in modo tempestivo: 20 TB di spazio di archiviazione di livello aziendale sono molto più costosi piuttosto che archiviarlo in due o tre serie di nastri LTO5 che vengono archiviati in depositi fuori sede.


0

Forse puoi costruire il tuo Backblaze Pod : 135Tb per 7384 $
Clicca qui per maggiori informazioni: Backblaze Pod informazioni sulla costruzione

Puoi acquistare i pezzi necessari e costruirlo da solo.

Forse puoi costruirne 3 e tenerne 2 in loco e 1 fuori sede. Quindi è possibile utilizzare un pod come "dati online", il secondo pod in loco come backup del primo pod e il terzo pod fuori sede come backup di emergenza fuori sede.

Con 135 TB di spazio di archiviazione per ciascun pod, puoi persino pensare a conservare un po 'di cronologia della modifica ...
135 TB / 20 TB = 19 copia di backup completa .
In alternativa è possibile mantenere 10 backup completi più una quantità ridicola di backup differenziale.

Naturalmente, se vuoi un backup fuori sede, avrai bisogno di una grande larghezza di banda ... :-)


5
Se i tuoi dati e il tuo lavoro sono importanti per te, non dovresti provare a creare il tuo pod backblaze da zero. Sembra una buona idea, finché non ti rendi conto che stai mettendo tutte le tue uova in un cestino davvero grande. Peggio ancora, quel cestino non è stato testato a fondo come un tutto integrato. La salsa segreta backblaze è la replica del software su molti pod, che consente a interi pod di fallire senza problemi. Vorrei invece raccomandare un server di archiviazione supermicro, centos, xfs e rdiff-backup.
bugaboo,

-1

Il mio collega ha acquistato un NAS a 8 dischi Synology. Funziona con un RAID ibrido. Ha acquistato otto Sea Barr Barracuda da 3 TB da NewEgg poche settimane fa per $ 89 ciascuno. È possibile sincronizzare il mirroring dal NAS di produzione a questo nuovo NAS su GigaBit. Poiché si stanno trasferendo solo le differenze, il trasferimento richiederà un tempo più breve. Quindi è possibile utilizzare il NAS di backup per eseguire interi o incrementali. Il costo per te sarebbe inferiore a $ 2000 per un NAS di backup.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.