Ho circa 100 TiB di dati compressi gzip su volumi cloud. Sul mio modo di eseguire un dedup a livello di blocco (duperemove per btrfs) trovo che sia stato compresso senza -n
, il che causa la differenza a livello di blocco dell'output compresso per file altrimenti identici.
Oltre a ricomprimerlo gzip -n
, c'è qualche altra scorciatoia per ottenere centinaia di milioni di file gziped per "perdere" quell'intestazione? e se devo già ricomprimerli tutti, dovrei esaminare anche altre ottimizzazioni, come --rsyncable
massimizzare le possibilità di deduplicazione?
(I dati hanno probabilità molto alte di contenere molti duplicati, stiamo parlando di dump completi giornalieri di grandi tabelle di database)