Quali formati di dati sono i migliori per la distribuzione di dati aperti?


15

Quali sono i pro e i contro di diversi formati di dati (prestazioni, dimensioni del file, ecc.) Quando si considera la distribuzione dei dati aperta?

La nostra organizzazione vuole pubblicare i dati come dati aperti. Tuttavia, non si ha idea chiara su quali formati di dati utilizzare. Naturalmente, più un formato di dati è "aperto", più è facile da usare.

Quali formati di dati sono i più "aperti" e quindi più utilizzabili per la distribuzione di Open Data quando si prendono in considerazione i seguenti tipi ?:

  • dati raster (sto pensando: GeoTIFF, Erdas Imagine IMG?)
  • dati vettoriali (sto pensando: GML, CSV, ESRI Shapefile, DXF?)
  • dati tabulari (sto pensando: CSV?)
  • Dati 3D (sto pensando: CityGML?)
  • 3D point coulds / LIDAR (Sto pensando: LAS?)
  • sto dimenticando qualcosa qui?

Inoltre, se esiste una documentazione sui formati di dati aperti, sono molto interessato a voler condividere.


2
per il vettore, potresti anche considerare geojson e kml
neuhausr il


4
È necessario distinguere tra formati di scambio dati e formato di archiviazione dati. geojson per esempio è un formato di scambio dati eccellente, ma fa schifo come formato di archiviazione dati. Presumo che tu ti occupi solo del formato per la distribuzione dei dati (ovvero lo scambio di dati). È corretto?
Devdatta Tengshe,

@DevdattaTengshe: buon punto! Per ora, l'intenzione è quella di distribuire i dati nel formato di scambio più conveniente.
Mark Verschuur,

Grazie a tutti per il feedback. Inoltre, alcuni suggerimenti sui tipi di file da utilizzare rispetto alle dimensioni del file sarebbero molto utili.
Mark Verschuur,

Risposte:


5

L'iniziativa open data della città di Vienna ( http://data.wien.gv.at ) utilizza Geoserver per fornire accesso a geodati raster e vettoriali tramite i servizi WMS e WFS di Geoserver . Ciò ha molti vantaggi: gli utenti possono scaricare dati in diversi formati per l'uso offline (ad es. Geojson, KML o Shapefile compressi) o utilizzare i servizi in tempo reale incorporandoli in mappe online o progetti GIS.


Questo è ciò che facciamo qui: maps.gcc.tas.gov.au/data Non vi è alcun motivo per cui non è possibile utilizzare GeoServer anche per le tabelle non spaziali.
Alex Leith,

5

Per CSV tabulare. Excel è nella migliore delle ipotesi troppo complicato e nella peggiore dei casi totalmente inaccessibile. L'accesso non è accessibile e il PDF è uno schiaffo in faccia.

Per uso geospaziale geojson, il testo è ben supportato e non ha le restrizioni tecniche che l'unico altro formato praticabile (shapefile) ha. Inoltre, a meno che tu non abbia una buona ragione, dovrebbe essere in WGS84, tenendo presente che la maggior parte degli utenti si troveranno in un altro stato e non vorranno un piano di stato.


5

Mi piace abbastanza NetCDF per dati continui / array (es. Raster). I vantaggi di NetCDF sono:

  • NetCDF è auto-descrittivo (ovvero, le definizioni dei dati sono disponibili tramite l'intestazione del file) quindi non è necessario fornire file di metadati secondari
  • NetCDF4 consente l'archiviazione di dati n-dimensionali (utilizzando il formato dati HDF5 su disco, che è un vantaggio in quanto consente file di grandi dimensioni che il sistema operativo è in grado di gestire). Ciò comporta una compressione ragionevole e un rapido accesso ai dati. Notare che NetCDF3 non supporta i dati n-dimensionali e ha un limite di dimensione del file di circa 2 GB su un sistema a 32 bit.
  • NetCDF è un formato aperto, quindi l'accesso ai dati non è generalmente un problema anche attraverso le librerie comuni. Ad esempio, in Python è abbastanza semplice da scipy leggere in una porzione di dati:
from scipy.io import netcdf
f = netcdf.netcdf_file('source.nc')
print(nc.dimensions) #take a look at the dimensions of the data
print(nc.variables)  #A dictionary containing all the variables
nc.variables["some_data"].dimensions #The dimensions this variable is in, e.g. lat, lon
out_array = nc.variables["some_data"].data
f.close() #and we're done

L'unico aspetto negativo di NetCDF4 che posso vedere è il supporto non eccezionale in pacchetti GIS standard come ArcGIS e QGIS (anche se mi piacerebbe molto essere corretto su questo!).

EDIT Alcuni altri pacchetti che supportano NetCDF

Alcuni linguaggi di programmazione standard che supportano NetCDF (sebbene sia giusto, tutto ciò che può leggere HDF può leggere NetCDF4):

Per gli utenti di matematica e statistiche hai:

Nello specifico in GIS:

  • GDAL convertirà i dati per te
  • Allo stesso modo FME
  • ArcGIS supporta NetCDF (anche se non è il miglior livello di supporto nella mia esperienza)
  • È in fase di sviluppo un plug- in QGIS

Se vuoi guardare rapidamente un file NetCDF, userei il Panoply multipiattaforma della NASA. E se ti interessa di più, UCAR Unidata ha un elenco di software .


NetCDF è una scelta terribile che in realtà non ha supporto al di fuori di Python. Potrebbe avere un buon supporto, ma tiffs, png e jpeg hanno il supporto in letteralmente ogni lingua.
Calvin,

2
Non sono assolutamente d'accordo. Ho modificato la mia risposta sopra per mostrare un breve elenco di pacchetti che supportano NetCDF. Nella mia esperienza è un formato di scelta per qualsiasi dato scientifico multidimensionale (ad es. Astronomia e meteorologia). PNG e TIFF non sono male per la distribuzione di dati raster e certamente la visualizzazione dei dati è facile, ma non si adattano bene a grandi quantità di dati multidimensionali. Non usare mai JPEG per distribuire dati scientifici (anche se se stai inviando a qualcuno una mappa funziona perfettamente).
om_henners,

4

Direi:

  • Shapefile o GML per dati vettoriali
  • .obj-Files per modelli 3D
  • .xyz (CSV semplice) per nuvole di punti
  • CSV per dati tabulari
  • GeoTIFF per dati raster

Questi formati sono facilmente leggibili dal software Open Source e sono facilmente trasformabili in qualsiasi altro formato necessario per applicazioni specifiche.

Inoltre +1 per rendere i dati aperti!


2
Sarò interessato a sapere perché hai suggerito Shapefile e GML per i dati vettoriali. Entrambi sono formati terribili. L'unica cosa che redime di GML è che si tratta di un formato OGC.
Devdatta Tengshe,

1
Gli Shapefile sono leggibili in molte applicazioni e possono essere trasformati in qualcosa di diverso senza problemi. Che cosa suggeriresti?
fino al

3
evitare gli shapefile. Funzionano, ma hanno seri limiti tecnici.
Nicks

1
Quindi cosa suggerisci che non ha i limiti tecnici dei file di forma?
fino al

2
@til_b GeoTIFF è un bel formato dal punto di vista dell'essere "aperto". Tuttavia, per l'archiviazione (o offrendolo come download) è terribile, perché i file possono diventare enormi. Conosci un formato raster aperto che offre una compressione senza perdita?
Mark Verschuur,

1

Praticamente questa stessa identica domanda è emersa su opendata.SE: quali sono i formati più utili in cui rilasciare i dati geospaziali?

Quindi, spero di non violare alcuna politica citando la mia risposta lì:

La mia esperienza, realizzando mappe da alcuni set di dati governativi:

Per i dati puntuali, CSV è il migliore, con colonne "lat" e "lon". Molto facile da lavorare con una vasta gamma di strumenti, inclusi editor di testo, fogli di calcolo, ecc. Ci sono due aspetti negativi:

  1. GDAL richiede un .vrtfile companion.
  2. La denominazione delle colonne late lonnon è totalmente standard. Molti strumenti sono piuttosto liberali in ciò che accettano.

Per linee e poligoni, in ordine di preferenza decrescente:

  1. GeoJSON. Facile da lavorare e la possibilità di modificare in un editor di testo o con geojson.io è un vero vantaggio, se devi cercare / sostituire, rimuovere un paio di oggetti strani o copiare e incollare da un file all'altro. Un altro vantaggio è che gli sviluppatori non GIS possono capirlo. L'unico problema che ho riscontrato è quando qualcuno fornisce dati come dire MultiPoint anziché Point.
  2. Shapefile. Molto ampiamente supportato, ma con due punti scomodi. Innanzitutto, è una raccolta di file, quindi devi passare un .zip ed estrarlo. In secondo luogo, i nomi dei campi sono limitati a 10 caratteri. Sono difficili da modificare per la persona media non GIS.
  3. KML / KMZ. Questi spesso hanno molte cruft irrilevanti (stile, icone, ecc.) E gli attributi sono talvolta codificati come mini tabelle HTML, con cui è davvero difficile lavorare. Almeno puoi modificarli facilmente con gli strumenti di Google.

Onestamente, però, la migliore risposta è probabilmente "tutti". Fai un favore a tutti e rilascia i dati in CSV (se punto), GeoJSON, Shapefile zippato e KMZ.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.