Ho ereditato un cluster di ricerca con ~ 40 TB di dati su tre filesystem. I dati risalgono a circa 15 anni fa e molto probabilmente ci sono molti duplicati poiché i ricercatori copiano i dati degli altri per motivi diversi e poi si limitano a conservare le copie.
Conosco strumenti di de-duping come fdupes e rmlint. Sto cercando di trovarne uno che funzioni su un set di dati così ampio. Non mi interessa se ci vogliono settimane (o forse anche mesi) per eseguire la scansione di tutti i dati - probabilmente lo limiterò comunque per andare piano con i filesystem. Ma devo trovare uno strumento che sia in qualche modo super efficiente con la RAM, o che possa archiviare tutti i dati intermedi di cui ha bisogno nei file piuttosto che nella RAM. Suppongo che la mia RAM (64 GB) si esaurirà se eseguo la scansione di tutti questi dati come un unico set.
Sto sperimentando fdupes ora su un albero da 900 GB. È lungo il 25% e l'utilizzo della RAM è andato lentamente aumentando continuamente, ora a 700 MB.
Oppure, c'è un modo per indirizzare un processo per utilizzare la RAM mappata sul disco, quindi c'è molto più disponibile e non utilizza la RAM di sistema?
Sto usando CentOS 6.