Quale programma devo usare per trasferire i dati da 20 TB attraverso la rete?


10

Devo copiare 20 TB di dati su un array di fulmini. La scatola in cui sono presenti i dati non ha una connessione fulmine, quindi per questo dovrò utilizzare la rete locale da 1 GB. (Sì, ci vorrà per sempre).

Ho provato ad usare Filezilla / sftp, ma si è arrestato in modo anomalo quando la coda è diventata super grande. Rsync o scp è la strada da percorrere?


2
È possibile estrarre l'unità dal vecchio dispositivo e collegarlo direttamente?

Concordo con il commento sopra. Il trasferimento fisico ha la maggiore larghezza di banda.
Siyuan Ren,

Adoro Carbon Copy Cloner, che è una bella utility GUI basata su rsync. Lo sviluppatore ha biforcato rsync e apportato molti miglioramenti. Non posso parlare con la velocità vs rsync e / o tar o altro, ma è il mio obiettivo per qualsiasi tipo di trasferimento di dati, dove voglio sapere senza dubbio che i miei dati sono buoni una volta che tutto è stato detto e fatto. E se non lo è, CCC me lo dirà.
Harv,

Sono sorpreso che non ci siano riferimenti a Fedex .
Tedder42,

Risposte:


16

rsync è una buona strada da percorrere (scp è praticamente lo stesso con meno funzioni). Potresti voler usare l' -Zopzione, che abiliterà la compressione zlib. A seconda della velocità delle unità / del computer, potrebbe essere più veloce dell'invio non compresso, ovvero se il collegamento di rete è saturo. Potresti anche voler scegliere l'opzione della modalità di archiviazione, -ache conserverà collegamenti simbolici, permessi e tempi di creazione / modifica, oltre a copiare ricorsivamente le directory. A seconda di cosa stai copiando, potresti voler -Econservare gli attributi estesi e le forcelle delle risorse mac. Infine, --progressti mostrerà le informazioni sui progressi.


11
rsync è anche bravo a riavviare la copia in caso di interruzione.
Lee Joramo,

3
Seconding @LeeJoramo, essere in grado di riprendere da dove è stato interrotto un trasferimento fallito è estremamente importante. Un trasferimento questo grande sarà riuscire ad un certo punto, e si vuole fare in modo che non si perde qualunque progressi che hai fatto fino a quel punto.
blahdiblah,

6

Pur non essendo onnipresente come rsync, in passato ho usato uno strumento chiamato "mpscp" - http://www.sandia.gov/MPSCP/mpscp_design.htm

Da Sandia National Labs, è uno strumento di copia di file che funziona su SSH che è appositamente ottimizzato per saturare reti ad alta velocità tra sistemi vicini (come copiare terabyte di dati tra due supercomputer nello stesso sito, collegati tramite 10Gb + o Infiniband). Funziona bene, ma può essere un po 'complicato da configurare. Durante i test, l'ho visto facilmente funzionare 2x-3x più veloce di rsync.


3

Usa rsync e considera di usarlo con rsyncd. Se usi rsync senza rsyncd, sei bloccato usando ssh, il che significa usare un qualche tipo di crittografia. Probabilmente stai copiando i dati da una macchina più vecchia a una macchina più recente e la macchina più vecchia potrebbe non avere il grugnito della CPU per crittografare i dati per la trasmissione abbastanza velocemente da mantenere saturo un collegamento Gigabit Ethernet. Prova a trasferire batch di file utilizzando entrambi i metodi e scopri quale modo è più veloce.

Per lo stesso motivo, consiglierei di testare l'uso dell'opzione di compressione di rsync prima di impegnarsi a usarlo. La compressione è un'altra attività intensiva della CPU che potrebbe non essere in grado di tenere il passo con le velocità Gigabit Ethernet quando si tenta su hardware più vecchio. rsync è un programma di quindici anni, riscritto quando la maggior parte delle persone, anche nei paesi del primo mondo, accedeva a Internet tramite modem dialup. La larghezza di banda della rete rispetto ai compromessi della CPU erano molto diversi allora.


Hai ragione sul fatto che rsync usa per impostazione predefinita ssh, ma questa non è l'unica opzione. Puoi farlo usare rsh invece usando l' -eopzione. Con la stessa opzione, è possibile modificare le opzioni di ssh per utilizzare una crittografia meno intensiva della CPU: -e 'ssh -c arcfour,blowfish-cbc'o simili. Non so se questo faccia alcuna differenza di velocità con una macchina moderna, ma può essere utile un rapido benchmark, specialmente con 20 TB di file.
Michael DM Dryden,

3

Questo 20 TB è impacchettato in un piccolo numero di file di grandi dimensioni (come video, database di mostri) o milioni di file più piccoli?

Se molti file di piccole dimensioni andrebbero con rsync per la restartabilità o un flusso tar tarato per l'efficienza (una connessione di rete per il lotto, ricominciare dall'inizio se non riesce)

tar -cf - * | ( cd newhome; tar -xf - )

la cartella remota deve essere montata.

Potresti collegare direttamente il nuovo array con un'interfaccia diversa? Local rsync non usa ssh quindi rimuovi quel punto di errore. Sì, Firewire 800 è più lento di Ethernet Gigabit ma non è possibile caricare Ethernet al 100% - potrebbe essere più veloce con Firewire. Cordiali saluti, è anche possibile rete firewire se le scatole sono abbastanza vicine. Aggiungi l'interfaccia nelle preferenze di sistema -> rete.


0

Un'altra opzione sarebbe quella di provare Bittorrent Sync ( http://www.bittorrent.com/sync ). L'ho usato per sincronizzare foto e video di famiglia tra membri della nostra famiglia attraverso la WAN, ma non c'è motivo per cui non funzionerà per la rete locale. Utilizza connessioni peer-to-peer in modo che i dati non passerebbero attraverso un server come farebbe se provassi a utilizzare qualcosa come dropbox (non che penso che tu abbia 20 TB di spazio dropbox o voglia aspettare così tanto tempo per caricare così tanto dati!)

È inoltre supportato su più piattaforme, quindi ha una maggiore flessibilità rispetto a rsync e tar.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.