Sono un dottorando in Geofisica e lavoro con grandi quantità di dati di immagini (centinaia di GB, decine di migliaia di file). Lo so svn
e git
abbastanza bene e arriva a valorizzare la storia di un progetto, unita alla capacità di lavorare facilmente insieme e avere protezione contro la corruzione del disco. Trovo git
anche estremamente utile avere backup coerenti, ma so che git non è in grado di gestire in modo efficiente grandi quantità di dati binari.
Nei miei studi di master ho lavorato su set di dati di dimensioni simili (anche immagini) e ho avuto molti problemi a tenere traccia di versioni diverse su server / dispositivi diversi. Diffondere 100 GB sulla rete non è davvero divertente e mi è costato molto tempo e fatica.
So che altri nella scienza sembrano avere problemi simili, ma non sono riuscito a trovare una buona soluzione.
Voglio usare le strutture di archiviazione del mio istituto, quindi ho bisogno di qualcosa che possa usare un server "stupido". Vorrei anche avere un backup aggiuntivo su un disco rigido portatile, perché vorrei evitare di trasferire centinaia di GB sulla rete, ove possibile. Quindi, ho bisogno di uno strumento in grado di gestire più di una posizione remota.
Infine, ho davvero bisogno di qualcosa che altri ricercatori possano usare, quindi non deve essere super semplice, ma dovrebbe essere appreso in poche ore.
Ho valutato molte soluzioni diverse, ma nessuna sembra adatta al conto:
- svn è alquanto inefficiente e necessita di un server intelligente
- hg bigfile / largefile può usare solo un telecomando
- git bigfile / media può anche usare solo un telecomando, ma non è anche molto efficiente
- l'attico non sembra avere un registro o funzionalità diverse
- bup sembra davvero buono, ma ha bisogno di un server "intelligente" per funzionare
Ho provato git-annex
, che fa tutto ciò di cui ho bisogno (e molto altro), ma è molto difficile da usare e non ben documentato. L'ho usato per diversi giorni e non riuscivo a pensarci bene, quindi dubito che qualsiasi altro collega sarebbe interessato.
In che modo i ricercatori gestiscono set di dati di grandi dimensioni e quali sono gli altri gruppi di ricerca?
Per essere chiari, sono principalmente interessato a come gli altri ricercatori affrontano questa situazione, non solo questo set di dati specifico. Mi sembra che quasi tutti dovrebbero avere questo problema, eppure non conosco nessuno che lo abbia risolto. Devo solo conservare un backup dei dati originali e dimenticare tutto questo controllo della versione? È quello che fanno tutti gli altri?