Dettagli tecnici per la funzionalità di deduplicazione di Server 2012


12

Ora che Windows Server 2012 include funzionalità di deduplicazione per i volumi NTFS, non riesco a trovare i dettagli tecnici a riguardo. Posso dedurre dalla documentazione TechNet che l'azione di deduplicazione stessa è un processo asincrono - non diversamente da come funzionava SIS Groveler - ma praticamente non ci sono dettagli sull'implementazione (algoritmi utilizzati, risorse necessarie, persino le informazioni sulle prestazioni le considerazioni non sono altro che un mucchio di consigli sullo stile di una regola empirica).

Approfondimenti e indicazioni sono molto apprezzati, un confronto con l'efficienza di de-duplicazione ZFS di Solaris per una serie di scenari sarebbe meraviglioso.

Risposte:


9

Come sospettavo, è basato sul sottosistema VSS ( fonte ) che spiega anche la sua natura asincrona. I blocchi de-dupe sono memorizzati in \System Volume Information\Dedup\ChunkStore\*, con le impostazioni in \System Volume Information\Dedup\Settings\*. Ciò ha un impatto significativo sul modo in cui il software di backup interagisce con tali volumi, come spiegato nell'articolo collegato (in breve: senza supporto dedupe i backup avranno le stesse dimensioni di sempre, con il supporto dedupe eseguirai solo il backup il negozio dedupe molto più piccolo).

Per quanto riguarda i metodi utilizzati, il meglio che ho trovato è stato un documento di ricerca pubblicato da un ricercatore Microsoft nel 2011 ( fonte , testo completo ) alla conferenza Usenix FAST11. La sezione 3.3 è dedicata alla deduplicazione nella memoria primaria . Sembra probabile che questi dati siano stati utilizzati nello sviluppo della funzionalità di deduplicazione NTFS. Questa citazione è stata utilizzata:

L'algoritmo canonico per blocchi di contenuto di dimensioni variabili è Rabin Fingerprints [25].

Ci sono molti dati nel documento da esaminare, ma la complessità del set di strumenti che hanno usato, combinata con le funzionalità che sappiamo già nel 2012, suggeriscono fortemente che il ragionamento nel documento è stato usato per sviluppare le funzionalità. Non posso esserne sicuro senza articoli msdn, ma questo è il più vicino possibile per il momento.

I confronti delle prestazioni con ZFS dovranno attendere fino a quando i benchmarker non avranno finito.


2
Grazie per il riferimento, anche se devo ammettere che speravo in qualcosa di più simile alla documentazione per una funzionalità che è sensata quanto il dedup in termini di prestazioni, integrità dei dati e consumo di memoria. Bene, aspettiamo e vediamo, allora.
the-wabbit,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.