Hai bisogno di fare il backup dei dati su Amazon S3?


16

Sto ospitando 200 GB di immagini di prodotti su S3 (questo è il mio host di file principale).

Devo eseguire il backup di quei dati da qualche altra parte, oppure S3 è sicuro com'è?

Ho provato a montare il bucket S3 su un'istanza EC2 e quindi a effettuare un backup rsync notturno. Il problema è che sono circa 3 milioni di file, quindi ci vuole un po 'di tempo per generare le diverse esigenze di rsync. Il completamento del backup richiede circa 3 giorni.

Qualche idea su come farlo meglio? (se è addirittura necessario?)

Risposte:


5

Ho fatto ricerche su questo, abbastanza divertente.

I backup su S3 possono non riuscire a seconda della regione a causa dell'eventuale coerenza; l'avvertimento di base è che se lo fai abbastanza, ad un certo punto avrai errori nell'apertura o nella ricerca di file come la magia del filesystem sullo sfondo di Amazon si sincronizza tra i server, quindi i tuoi backup potrebbero non essere affidabili.

Per quanto riguarda se è necessario salvarli in un altro modo, questo dipende dalla gestione del rischio. Ti fidi che Amazon conservi i tuoi dati?

È possibile che possano perdere qualcosa o avere un errore maggiore del loro sistema di archiviazione; senza dubbio hanno clausole nei loro contratti che specificano che se perdono i tuoi dati, questo è il tuo problema. Non loro. Inoltre, visto che i tuoi dati sono conservati altrove, non sai cosa ne faranno; le forze dell'ordine vogliono i tuoi dati? Potresti anche non sapere che qualcun altro ha avuto accesso.

Ti fidi? Se i dati non sono fondamentali per la tua attività e sei disposto ad accettare questo rischio, non è necessario scaricarli in un archivio esterno. Se non sei disposto a rischiare che i tuoi dati siano al sicuro nei server di archiviazione di Amazon là fuori, dovresti prendere accordi per scaricarli periodicamente sul tuo archivio.

In altre parole, non penso che ci sia una risposta diretta a ciò in quanto dipende dalla tolleranza al rischio e dalle esigenze aziendali. Molte persone non si fiderebbero completamente del proprio reddito solo per lo storage con il cloud, personalmente mi sento un po 'diffidente nei confronti di ...

Per fare questo meglio, nelle discussioni e nella ricerca, un altro approccio da considerare è la creazione di un volume EBS abbastanza grande da archiviare i dati, collegarlo all'istanza EC2, salvare i dati lì, quindi è possibile smontare il volume e salvare i dati su S3 . Sono nel mezzo di una ricerca per sapere se questo sarebbe come salvare il file del volume stesso su S3 o il contenuto ... ma poi puoi eliminare l'istanza EBS quando fatto per risparmiare sui costi di archiviazione.

EDIT Vedo che rileggendo che stai salvando DA S3 all'istanza EC2, non viceversa (anche se non so se l'eventuale problema di coerenza potrebbe ancora causare problemi lì). Stai cercando di salvare i dati in un'istanza EC2 come backup? Penserei che dal punto di vista dei costi non è una buona tattica; può essere più economico eseguire il backup delle cose su un'unità locale quando si tiene conto dell'archiviazione a lungo termine di quel tipo di dati, insieme al tempo della VM. Con i costi dell'unità, è possibile copiare i dati su un disco locale come backup.

Conserverei ancora gli avvertimenti sulla fiducia in Amazon e sul loro spazio di archiviazione. Se vuoi mantenere tutto in Amazon S3 ma hai più ridondanza, duplica i tuoi secchi S3 attraverso le regioni e se hanno un'interruzione che interessa una regione non dovrebbe eliminarli tutti. Tu speri. Tutto è possibile però.

Dipende da quanto dai valore ai tuoi dati, da quanto sei disposto a pagare e da quanti rischi vuoi tollerare.


Grazie per la tua risposta, ma penso che tu abbia frainteso. Sto usando S3 come memoria principale (sto ospitando i file direttamente da lì come cdn). Quindi la mia domanda era se i file sono al sicuro lì, o se ho bisogno di fare un backup di essi in qualche modo (potrebbe essere in un altro bucker S3 o e istanza EC2)?
Chrille,

Aggiunto su una modifica.
Bart Silverstrim,

Sì, forse un backup locale sarebbe più sicuro. Sai se S3 ed EC2 condividono lo stesso hardware - se fallisce, sia S3 che il mio backup EC2 sarebbero spariti? I miei due motivi per fare un backup su EC2 sono: (1) Non ci sono costi di trasferimento tra EC2 e S3. Costa circa 200 GB a livello locale ogni settimana. (2) in caso di disastro su S3, potrei invece convertire abbastanza rapidamente la mia istanza EC2 per condividere le immagini dal backup. Ma capisco che un backup locale ha anche molti vantaggi ...
Chrille,

Onestamente non so come l'hardware di Amazon sia impostato in background; anche se lo sapessi, non c'è garanzia che non lo cambieranno in futuro.
Bart Silverstrim,

4

Ho usato s3cmd s3cmd sync per farlo. È un po 'simile a rsync nel suo funzionamento e può spingere e tirare intere directory tra S3 e un altro sistema Linux di tua scelta.

Non vedo alcun motivo per cui non sia s3cmd syncpossibile eseguire un'istanza EC2 in esecuzione o persino la propria workstation di sviluppo (o un server di archiviazione).

Potresti voler configurare un'istanza VPC e quindi assegnare a un piccolo nodo all'interno del tuo VPC il ruolo di server di backup e assegnargli sia un IP all'interno della rete di Amazon, sia all'interno della tua sottorete locale.


La mia preoccupazione, che dovrebbe decidere con i propri dati finanziari, è il costo di mantenere un'istanza EC2 e lo spazio EBS per archiviare quel tipo di dati rispetto al salvataggio su un disco rigido esterno locale per un paio di centinaia di dollari. Se il denaro consente le commissioni di trasferimento, lo scaricerei su un disco locale e lo terrei periodicamente sincronizzato (che faceva anche parte della soluzione fornita).
Bart Silverstrim,

L'EC2 di Amazon non è economico in nessuna misura del termine, specialmente se vuoi fare un livello aziendale o qualcosa di diverso da quello semplice. Se non ti piace, forse non fa per te.
Tom O'Connor,

@BartSilverstrim: il trasferimento all'interno di AWS non è gratuito? In tal caso, potrebbe essere più economico per me copiarlo su EC2 che localmente. Ho comunque un'istanza EC2 in esecuzione 24 ore su 24, 7 giorni su 7, quindi costa solo lo spazio EBS.
Chrille,

2

Il mio consiglio è che i tuoi dati siano sotto la tua responsabilità, non quelli di Amazon. Se perdere i dati non è un grosso problema, quindi non fare il tuo backup. Se lo è, porta il tuo backup su (almeno) un JBOD economico (e verifica regolarmente) come faccio io.

Scoprirai quante responsabilità Amazon è disposto ad assumersi per i tuoi dati, il giorno in cui li perdono.


0

Se te lo puoi permettere (mentre lo faccio) è avere tutti i miei dati memorizzati sul mio server, ma estraendoli da Amazon s3. Quindi, se Amazon non funziona per nessun motivo (touch wood), posso semplicemente estrarre immediatamente tutti i miei dati direttamente dal mio server. Dal mio server eseguo backup mensili sul mio disco locale. Dato che il mio sito web ha oltre 2 TB nel sito.


Trovo poco chiaro quale sia la tua raccomandazione. Qual è il tuo server e dove si trova?
Kasperd,

0

Anche se questo è un vecchio thread, è la prima cosa che viene fuori durante il backup di Google S3, quindi ho pensato di aggiungere ad esso ...

Facendo alcune ricerche su questo, ho scoperto Rclone https://rclone.org/ - è un software rsync-ish progettato per copiare tra i servizi di archiviazione di file cloud e supporta la maggior parte di essi. Nessuna affiliazione e non l'ho ancora usato, quindi non posso dire se è buono o cattivo, ma ho pensato che potesse aiutare qualcuno.

Mi sembra che ci sia opportunità per un servizio ospitato che esegue backup "offsite" di file ospitati su cloud (S3, Google Storage, Rackspace Cloud Files, ecc.) ....

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.