Alternative a hdf5


15

Uso HDF5 da anni, ma con l'aumentare delle dimensioni del set di dati sto iniziando a riscontrare gli stessi problemi elencati qui

http://cyrille.rossant.net/moving-away-hdf5/

Puoi indicarmi un formato come HDF5 con - Buon supporto per le scritture parallele - Supporto per l'accesso in blocco di enormi matrici

Il mio caso d'uso tipico è una matrice intera 100k x 100k. Mi piacerebbe averlo come un intero file da una prospettiva logica, ma devo scriverlo pezzo per pezzo con i lavoratori paralleli.


3
Puoi spiegare quali tipi di set di dati devi esportare? Questo può essere utile per le persone che desiderano rispondere alla tua domanda. Ho considerato HDF5 e netcfd. Ma questi potrebbero essere più adatti a determinati set di dati.
Charles,

2
VTK compresso supporta blocchi. È possibile salvare più file in parallelo e unirli insieme utilizzando il meta file PVD. Qual è la dimensione del set di dati?
Krzysztof Bzowski il

Dopo le tue modifiche, VTK in pezzi non è una buona decisione.
Krzysztof Bzowski il

Cosa hai usato per finire?
aidan.plenert.macdonald,

@ aidan.penert.macdonald Ho continuato con hdf5, usando scritture parallele con MPI. Ma ho dovuto abbandonare Python
MG

Risposte:


6

HDF5 è, in una certa misura, un filesystem a sé stante. Introducendo B-Trees e gestendo i blocchi, duplica la funzionalità di un filesystem. Quando esegui il tuo codice, probabilmente lo stai eseguendo su un sistema operativo con un filesystem provato e scalabile. Quindi, suggerirei di scrivere i tuoi dati grezzi numerici in un singolo file usando l'accesso ai file non elaborati o MPI-IO e di scrivere i metadati (endianess, dimensione, attributi, ecc.) In un file JSON o XML separato. Se si dispone di più set di dati, è possibile organizzarli in una directory o in una gerarchia di directory. Quando vuoi distribuire il set di dati, devi solo comprimerlo in un file ZIP.

L'unico aspetto negativo è che devi affrontare da solo l' Endianness , che non è tuttavia difficile .

Per una fonte d'ispirazione su come farlo, vedere Dragly, et. al. "A. Struttura sperimentale delle directory (Exdir): un'alternativa a HDF5 senza introdurre un nuovo formato di file" Fronte. Neuroinform., 2018, 12 .

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.