Abbiamo una struttura di cartelle sulla nostra intranet che contiene circa 800.000 file suddivisi in circa 4.000 cartelle. Dobbiamo sincronizzarlo con un piccolo gruppo di macchine nelle nostre DMZ. La profondità della struttura è molto bassa (non supera mai i due livelli di profondità).
La maggior parte dei file non cambia mai, ogni giorno ci sono alcune migliaia di file aggiornati e 1-2 mila nuovi file. I dati sono dati di report storici mantenuti laddove i dati di origine sono stati eliminati (ovvero si tratta di report finalizzati per i quali i dati di origine sono sufficientemente vecchi da archiviarli ed eliminarli). La sincronizzazione una volta al giorno è sufficiente dato che può avvenire in tempi ragionevoli. I report vengono generati durante la notte e sincronizziamo la prima cosa al mattino come attività pianificata.
Ovviamente, poiché così pochi file cambiano su base regolare, possiamo trarre grandi benefici dalla copia incrementale. Abbiamo provato Rsync, ma possono essere necessarie dalle otto alle dodici ore solo per completare l'operazione "Elenco file di costruzione". È chiaro che stiamo rapidamente superando le capacità di rsync (il periodo di tempo di 12 ore è troppo lungo).
Avevamo utilizzato un altro strumento chiamato RepliWeb per sincronizzare le strutture e può eseguire un trasferimento incrementale in circa 45 minuti. Tuttavia sembra che abbiamo superato il limite, ha iniziato a vedere i file mostrati come eliminati quando non lo sono (forse una certa struttura di memoria interna è stata esaurita, non ne siamo sicuri).
Qualcun altro ha incontrato un progetto di sincronizzazione su larga scala di questo tipo? Esiste qualcosa progettato per gestire enormi strutture di file come questo per la sincronizzazione?