Non sono un ninja di file system distribuito, ma dopo aver consolidato quante più unità possibile in quante meno macchine possibile, proverei a utilizzare iSCSI per collegare la maggior parte delle macchine a una macchina principale. Lì potrei consolidare le cose in un archivio sperabilmente tollerante ai guasti. Preferibilmente, tollerante ai guasti all'interno di una macchina (se un'unità si spegne) e tra le macchine (se un'intera macchina è spenta).
Personalmente mi piace ZFS. In questo caso, la compressione integrata, la deduplica e la tolleranza agli errori sarebbero utili. Tuttavia, sono sicuro che ci sono molti altri modi per comprimere i dati rendendoli tolleranti ai guasti.
Vorrei avere una vera soluzione di file distribuito chiavi in mano da raccomandare, so che questo è davvero kludgey ma spero che ti indichi nella giusta direzione.
Modifica: sono ancora nuovo su ZFS e sto configurando iSCSI, ma ho ricordato di aver visto un video di Sun in Germania, dove mostravano la tolleranza agli errori di ZFS. Hanno collegato tre hub USB a un computer e hanno inserito quattro unità flash in ciascun hub. Quindi, per impedire a un hub di smontare il pool di archiviazione, è stato creato un volume RAIDz costituito da un'unità flash da ciascun hub. Quindi mettono insieme i quattro volumi ZFS RAIDz. In questo modo sono state utilizzate solo quattro unità flash per parità. Successivamente, ovviamente, l'hub è stato scollegato e questo ha degradato ogni zpool, ma tutti i dati erano disponibili. In questa configurazione si potrebbero perdere fino a quattro unità, ma solo se due unità non fossero nello stesso pool.
Se questa configurazione fosse utilizzata con l'unità raw di ciascuna casella, ciò preserverebbe più unità per i dati e non per la parità. Ho sentito che FreeNAS può (o sarebbe stato in grado di) condividere le unità in modo "grezzo" tramite iSCSI, quindi presumo che Linux possa fare lo stesso. Come ho già detto, sto ancora imparando, ma questo metodo alternativo sarebbe meno dispendioso dal punto di vista della parità di guida rispetto al mio suggerimento precedente. Certo, farebbe affidamento sull'uso di ZFS che non so se sarebbe accettabile. So che di solito è meglio attenersi a ciò che sai se devi costruire / mantenere / riparare qualcosa, a meno che questa non sia un'esperienza di apprendimento.
Spero sia meglio
Modifica: ho scavato e trovato il video di cui ho parlato. La parte in cui spiegano la diffusione dell'unità flash USB sugli hub inizia a 2m10s. Il video è di demo del loro server di archiviazione "Thumper" (X4500) e di come distribuire i dischi tra i controller in modo che se si verifica un errore del controller del disco rigido, i dati saranno comunque buoni. (Personalmente penso che questo sia solo un video di geek che si divertono. Vorrei avere una scatola Thumper io stesso, ma a mia moglie non piacerebbe che facessi passare un pallet in casa.: D Questa è una scatola grande.)
Modifica: mi sono ricordato di aver attraversato un file system distribuito chiamato OpenAFS . Non ci avevo provato, ne avevo solo letto un po '. Forse altri sanno come gestisce nel mondo reale.