Come posso deduplicare i miei dati con BTRFS?


15

Ho installato Lubuntu 15.04 sul mio EEE PC 701 con il file system BTRFS. Voglio deduplicare i miei dati, ma non so come.

Risposte:


14

Inizia facendo un backup completo in modo che se qualcosa va storto non hai perso nulla.

Credo che tu stia cercando duperemove -d

"Duperemove è un semplice strumento per trovare estensioni duplicate e inviarle per la deduplicazione. Quando viene fornito un elenco di file, esegue il hash del loro contenuto su base blocco per blocco e confronta gli hash tra loro, trovando e classificando le estensioni corrispondenti. Quando viene data l'opzione -d, duperemove invierà tali estensioni per la deduplicazione usando lo ioctl btrfs-extension-stesso.

Duperemove ha due principali modalità di funzionamento, una delle quali è un sottoinsieme dell'altra.

Modalità sola lettura / non deduplicazione

Se eseguito senza -d (impostazione predefinita) duperemove stamperà una o più tabelle di estensioni corrispondenti che ha determinato sarebbero i candidati ideali per la deduplicazione. Di conseguenza, la modalità sola lettura è utile per vedere cosa potrebbe fare duperemove quando eseguito con '-d'. L'output potrebbe anche essere utilizzato da altri software per inviare le estensioni per la deduplicazione in un secondo momento.

È importante notare che questa modalità non stamperà tutte le istanze di estensioni corrispondenti, ma solo quelle che prenderebbe in considerazione per la deduplicazione.

In generale, duperemove non si occupa della rappresentazione sottostante delle estensioni che elabora. Alcuni potrebbero essere compressi, sottoposti a I / O o addirittura già deduplicati. In modalità dedupe, il kernel gestisce questi dettagli e quindi cerchiamo di non replicare quel lavoro.

Modalità Deduping

Funziona in modo simile alla modalità sola lettura, con l'eccezione che le estensioni duplicate trovate nel nostro passaggio "lettura, hash e confronto" verranno effettivamente sottoposte alla deduplicazione. Una stima dei dati totali deduplicati verrà stampata al termine dell'operazione. Questa stima viene calcolata confrontando la quantità totale di byte condivisi in ciascun file prima e dopo la deduplica.

Vedi la pagina man di duperemove per ulteriori dettagli sull'esecuzione di duperemove. "

questo non sembra apparire nel pacchetto btrfs-tools ma qui c'è una pagina git hub . Problemi recenti aperti e chiusi (alias pulse) disponibili qui.

I pacchetti per Tutti i versiosn attualmente supportati di Ubuntu sono disponibili in questo PPA

Devo ripetere che il backup è altamente raccomandato . Vedi: https://github.com/markfasheh/duperemove/issues/50

Fonte citata: https://github.com/markfasheh/duperemove

pagina man: https://manpages.debian.org/testing/duperemove/duperemove.8.en.html


Quando scrivo duperemove -d ottengo la pagina di aiuto
wb9688

1
Cosa ottieni quando digiti 'man duperemove`? Credo che sia necessario designare i file per eseguirlo. come induperemove [options] files...
Elder Geek,

/ me solo ieri l'ho usato - FTR, il comando è duperemove -rdh path1 path2 pathn, dove -rper ricorsivo, -deffettivamente deduplicare, e -hper numeri leggibili dall'uomo.
Ciao Angelo

@ Ciao-Angel ha aggiornato la risposta - aggiunto il link alla pagina man
Elder Geek

3

Ho sempre usato il letto . È molto veloce e affidabile. Questo strumento è anche menzionato nella pagina ufficiale di btrfs . Non ho mai usato Duperemove (Bedup è più vecchio).


2
A questo punto il bedup non è più in sviluppo attivo ed è tristemente obsoleto.
Perkins,

3
@Perkins Non sono d'accordo. Ho appena ricevuto feedback per il problema github.com/g2p/bedup/issues/75 che ho pubblicato oggi e con questo aiuto ho appena "esaurito" oltre 7 GB di spazio sul mio nuovo server 16.04.
Adam Ryczkowski

3
Forse qualcuno l'ha raccolto di nuovo allora. Ci avevo rinunciato dopo circa un anno, non potendo nemmeno scansionare correttamente i duplicati. Detto questo, a meno che non lo abbiano aggiornato per utilizzare il nuovo ioctl, duperemove sarà più sicuro in quanto esegue la deduplicazione atomicamente in kernelspace invece di eseguire l'annullamento di uno dei duplicati e fare una copia riflettente dell'altro. Ma poi, bedup otterrà effettivamente i file abbastanza piccoli da essere archiviati nell'albero, cosa che duperemove attualmente non può a causa della mancanza del supporto del kernel.
Perkins,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.