Che cos'è la "deduplicazione"?


8

Voglio dire, posso cercare la definizione del dizionario, ma perché improvvisamente tutti ne parlano in riferimento alle librerie di nastri virtuali? Cosa c'è di "nuovo" qui in modo che sia così tanto nelle notizie ultimamente?

Risposte:


14

La deduplicazione è il punto in cui si osserva il contenuto di un set di dati, si annotano tutti i bit duplicati presenti e si memorizzano i dati una sola volta, sostituendo tutte quelle copie altrimenti dei dati con un puntatore a una sola copia. È particolarmente utile con i backup perché quando si esegue il backup di cose come i server, gran parte dei dati è la stessa. Immagina, ad esempio, di eseguire il backup di 1.000 server Windows: gran parte del contenuto di queste caselle sarà identico.

La deduplicazione è così popolare oggi per 3 motivi:

  1. Ultimamente tutti sono ossessionati dalla creazione di soluzioni di disaster recovery che utilizzano server off-site. Per fare questo, devi replicare molti dati di produzione sul sito remoto e la larghezza di banda è un grosso problema. Qualsiasi riduzione della quantità di dati che devi replicare aiuta molto.

  2. La quantità di dati che le società stanno trattenendo sta esplodendo, grazie alla conservazione più economica e ai requisiti multi-settoriali per la conservazione dei dati.

  3. La tecnologia ha recentemente colpito il punto debole. Abbiamo avuto cose come la deduplicazione per molto tempo (archiviazione a istanza singola, ecc.) Che ha aiutato, ma solo nell'ultimo anno o giù di lì abbiamo visto la deduplicazione reale che può ridurre significativamente la quantità di spazio di archiviazione nel mainstream.


2
Vorrei anche aggiungere che il costo delle soluzioni de-dup sta diminuendo in modo che i venditori abbiano un lavoro più semplice vendendone i vantaggi - e se è più facile venderlo, i venditori ne parleranno di più ... Non ho notato discussioni specificamente riguardanti il ​​nastro virtuale librerie rispetto ad altri metodi di backup, ma immagino sia un'opportunità per commercializzare i vantaggi di entrambi insieme.
William

1
@William: Sì, esattamente, volevo fare riferimento alla parte di costo quando ho detto "punto debole", ma non l'ho chiarito, quindi grazie per averlo sottolineato. Certamente il costo è diventato abbastanza basso che molti di noi possono trovare una soluzione deduplica che possiamo effettivamente permetterci.
icky3000,

0

Una delle cose che abbiamo scoperto nella mia azienda lavorando con Netapp è che la deduplicazione funziona davvero bene in un ambiente VM solo se le unità sono allineate. Il che è un problema per noi poiché disponiamo di molte macchine Windows Server 2003 e nessuna delle unità è allineata. Ciò significa che a malapena recupererai circa un quarto dello spazio possibile se le unità sono allineate correttamente.

Ci viene detto, tuttavia, che una volta allineati correttamente i drive dovremmo essere in grado di recuperare il 40-60% del nostro spazio con dedup.


Questo è un problema dell'implementazione concreta di NetApp che utilizza (per altri motivi totalmente comprensibili) blocchi di dimensioni statiche di 4 KB. L'alternativa sarebbe rappresentata da blocchi definiti in base al contenuto di dimensioni variabili che non richiedono un buon allineamento.
dmeister,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.