Deduplicazione a livello di blocco su Linux

10

NetApp fornisce la deduplicazione a livello di blocco (ASIS). Conosci qualche filesystem (anche basato su FUSE) su Linux (o OpenSolaris, * BSD) che fornisce la stessa funzionalità?

(Non mi interessa la falsa deduplicazione come gli hardlink).

linux netapp deduplication

— Benoît
fonte

6

Controlla lessFS, filesystem di deduplicazione dei dati, per Linux. È ancora in beta ma puoi provarlo:

http://www.lessfs.com/

Saluti,

MV

— MV.
fonte

Eccellente! È ancora beta ma è sicuramente qualcosa per cominciare.

— Benoît,

7

La deduplicazione sta arrivando su ZFS su OpenSolaris ma quella funzionalità non è attualmente disponibile.

È stato prototipato da Jeff Bonwick e Bill Moore lo scorso inverno e stanno lavorando per integrarlo quest'estate. Quindi dovrebbe essere disponibile nella prossima versione di OpenSolaris o prima se vuoi giocare con il ramo di sviluppo.

— 3dinfluence
fonte

Vedi la risposta di @ jlliagre: è disponibile ora.

— James Moore,

4

Per le persone che potrebbero non avere familiarità con la deduplicazione dei dati, si tratta di una tecnica in base alla quale i dati vengono analizzati a livello di file (o blocco, suppongo) e in cui file / blocchi identici in tutto il file system vengono sostituiti con un token più piccolo. Ciò ha l'effetto di ridurre notevolmente le dimensioni effettive sul disco. Potrebbe essere considerato una forma di copia su scrittura . Leggi la pagina wiki su di essa.

Non esiste un filesystem di cui ho sentito parlare in Linux per eseguire dedup, file o livello di blocco. Una bestia del genere sarebbe utile, anche se piuttosto intensa per i processori.

— Matt Simmons
fonte

4

La deduplicazione è ora disponibile con ZFS su OpenSolaris (build 128a e più recenti).

— jlliagre
fonte

2

Un anno dopo, ma ecco una soluzione per OpenBSD chiamata Epitome: http://www.peereboom.us/epitome/ . A condizione che sia una licenza liberale, potrebbe benissimo farcela nel kernel di Linux.

1

Ho appena pubblicato un progetto a cui sto lavorando che prevede la deduplicazione in linea. Puoi dare un'occhiata qui se sei interessato. Si basa su miccia e funziona su Linux.

0

Non conosco implementazioni gratuite di dedup per Linux. Ho visto alcuni venditori di storage raccomandare di utilizzare un sistema HSM (gestione gerarchica dell'archiviazione) con un VTL (Virtual Storage Library) che esegue il dedup.

Potresti anche considerare un sistema simile a Occarina che non è trasparente ma in grado di fornire risultati migliori del dedup.

— Giacomo
fonte

0

quindi ... nessuna notizia sulla deduplicazione su Linux? opendedup potrebbe essere una scelta, ma dando la piattaforma Java su cui gira, non voglio avere mal di testa. L'ho provato sì, ma questa macchina java e il resto non stanno andando molto bene con le mie esigenze di tempi di risposta di archiviazione e sicurezza.

0

L'opzione di deduplicazione è disponibile sotto Linux, sui filesystem BTRFS e ZFS. BTRFS è sviluppato nativamente sotto Linux e ha uno strumento di deduplicazione off-line. Non sto pensando 'offline', devi smontare fs. Offline significa che i dati scritti attivamente non vengono deduplicati. Ma più tardi esegui lo strumento per i pensieri deduplicati memorizzati ora. In realtà probabilmente lo strumento è in beta. L'altro modo è all'interno di ZFS. Disponibile come FUSE e nativamente: http://zfsonlinux.org/ . Questo fa la deduplicazione online, purtroppo questo rallentamento scrive perché tutto deve essere calcolato al volo. Puoi attivare e disattivare questo comportamento online. Dopo aver disattivato la deduplicazione, tutti i dati deduplicati verranno comunque archiviati come deduplicati. Le nuove scritture verranno archiviate come "duplicate". Se si desidera deduplicare tali dati in futuro, è necessario attivare la deduplicazione e riscrivere tutti i file "duplicati".

Vedi documento disponibile nella pagina. Per accelerare scritture e letture, è possibile aggiungere dispositivi più veloci al pool di archiviazione (in particolare unità SDD o forse flash USB più veloci, prestare attenzione all'affidabilità del dispositivo).

— Znik
fonte

-2

DRBD fa proprio questo e lo fa davvero bene! Può fare Master / Slave o Master / Master :-)

— Antoine Benkemoun
fonte

Potresti indicarmi il documento di deduplicazione? Non riesco a trovarlo su drbd.org/home/feature-list .

— Benoît,

Penso che Antoine significasse "duplicazione", che non è proprio quello che stavi cercando, lo so

— Matt Simmons,

oh mio male, qual è la differenza tra duplicazione e deduplicazione?

— Antoine Benkemoun,

Ho inserito una breve spiegazione nel mio commento, ma essenzialmente la duplicazione invia i dati a un altro host, dove la deduplicazione elimina le informazioni identiche nel file system, aumentando lo spazio libero effettivo

— Matt Simmons,