Lettura dei dati grezzi in geopandas


14

È possibile leggere i dati grezzi in a geopandas GeoDataFrame, a la a pandas DataFrame?

Ad esempio, i seguenti lavori:

import pandas as pd
import requests
data = requests.get("https://data.cityofnewyork.us/api/geospatial/arq3-7z49?method=export&format=GeoJSON")
pd.read_json(io.BytesIO(r.content))

Quanto segue non:

import geopandas as gpd
import requests
data = requests.get("https://data.cityofnewyork.us/api/geospatial/arq3-7z49?method=export&format=GeoJSON")
gpd.read_file(io.BytesIO(r.content))

In altre parole, è possibile leggere i dati geospaziali che sono in memoria senza prima salvarli su disco?

Risposte:


16

Puoi passare il json direttamente al costruttore GeoDataFrame:

import geopandas as gpd
import requests
data = requests.get("https://data.cityofnewyork.us/api/geospatial/arq3-7z49?method=export&format=GeoJSON")
gdf = gpd.GeoDataFrame(data.json())
gdf.head()

Uscite:

                                            features               type
0  {'type': 'Feature', 'geometry': {'type': 'Poin...  FeatureCollection
1  {'type': 'Feature', 'geometry': {'type': 'Poin...  FeatureCollection
2  {'type': 'Feature', 'geometry': {'type': 'Poin...  FeatureCollection
3  {'type': 'Feature', 'geometry': {'type': 'Poin...  FeatureCollection
4  {'type': 'Feature', 'geometry': {'type': 'Poin...  FeatureCollection

Per i formati di file singolo supportati o gli shapefile compressi, puoi utilizzare fiona.BytesCollectione GeoDataFrame.from_features:

import requests
import fiona
import geopandas as gpd

url = 'http://www.geopackage.org/data/gdal_sample.gpkg'
request = requests.get(url)
b = bytes(request.content)
with fiona.BytesCollection(b) as f:
    crs = f.crs
    gdf = gpd.GeoDataFrame.from_features(f, crs=crs)
    print(gdf.head())
e per gli shapefile con zip (supportati da fiona 1.7.2 )
url = 'https://www2.census.gov/geo/tiger/TIGER2010/STATE/2010/tl_2010_31_state10.zip'
request = requests.get(url)
b = bytes(request.content)
with fiona.BytesCollection(b) as f:
    crs = f.crs
    gdf = gpd.GeoDataFrame.from_features(f, crs=crs)
    print(gdf.head())

Puoi scoprire quali formati supporta Fiona usando qualcosa come:

import fiona
for name, access in fiona.supported_drivers.items():
    print('{}: {}'.format(name, access))

E una soluzione caotica per la lettura di dati zippati in memoria in fiona 1.7.1 o precedenti:

import requests
import uuid
import fiona
import geopandas as gpd
from osgeo import gdal

request = requests.get('https://github.com/OSGeo/gdal/blob/trunk/autotest/ogr/data/poly.zip?raw=true')
vsiz = '/vsimem/{}.zip'.format(uuid.uuid4().hex) #gdal/ogr requires a .zip extension

gdal.FileFromMemBuffer(vsiz,bytes(request.content))
with fiona.Collection(vsiz, vsi='zip', layer ='poly') as f:
    gdf = gpd.GeoDataFrame.from_features(f, crs=f.crs)
    print(gdf.head())

Questo funziona per GeoJSON, che risponde alla domanda. Ma questo non funzionerebbe con altri formati di file geospaziali, come shapefile o KML o KMZ. Conosci una soluzione alternativa per quei casi?
Aleksey Bilogur,

Un piccolo chiarimento è in ordine. GeoPandas e Fiona supportano shapefile e KML, ma non sono in grado di supportare appieno API come la City di New York. Inoltre, BytesCollectionfunziona totalmente, ma probabilmente verrà rimosso in una versione futura a favore di una delle opzioni in github.com/Toblerity/Fiona/issues/409 .
sgillies

Grazie. @sgillies dovrebbe essere aperto come una richiesta di funzionalità geopandaso sarebbe meglio aspettare le modifiche che menzioni qui ?
Aleksey Bilogur,

@sgillies affermi che Fiona supporta KML nel tuo commento sopra, ma DriverError: unsupported driver: 'KML'viene sollevata quando tenti di aprire KML in quanto non è nel supported_driversdict (usando Fiona 1.7.1) e ho notato un paio di problemi riguardo. mancanza di supporto KML (# 23 e # 97). Fiona supporta KML?
user2856

Grazie per aver individuato il from_featuresmetodo. Mi hai salvato la giornata!
jlandercy

3

Dal momento fiona.BytesCollectionche non sembra funzionare per TopoJSONqui una soluzione che funziona per tutti senza la necessità di gdal:

import fiona
import geopandas as gpd
import requests

# parse the topojson file into memory
request = requests.get('https://vega.github.io/vega-datasets/data/us-10m.json')
visz = fiona.ogrext.buffer_to_virtual_file(bytes(request.content))

# read the features from a fiona collection into a GeoDataFrame
with fiona.Collection(visz, driver='TopoJSON') as f:
    gdf = gpd.GeoDataFrame.from_features(f, crs=f.crs)

Con geopandas==0.4.0, Fiona==1.8.4e Python 3, ottengo DriverError: unsupported driver: 'TopoJSON'.
Edesz,

Hai ragione. Funzionava fino almeno alla versione 1.7.13diFiona
Mattijn,

È un peccato che non funzioni. Stavo cercando di seguire il tuo esempio su GitHub per trame coropletiche di Altair, ma anche questo getta lo stesso errore esatto sulla linea gdf = gpd.read_file(counties, driver='TopoJSON'). Ho pensato che usare with fiona.Collection...potrebbe funzionare, ma purtroppo non funziona.
edesz,

@edesz questo era un bug e verrà risolto in Fiona 1.8.5, vedi: github.com/Toblerity/Fiona/issues/721
Mattijn


2

Quando si utilizza Fiona 1.8, questo può (deve?) Essere fatto usando quel progetto MemoryFileoZipMemoryFile .

Per esempio:

import fiona.io
import geopandas as gpd
import requests

response = requests.get('http://example.com/Some_shapefile.zip')
data_bytes = response.content

with fiona.io.ZipMemoryFile(data_bytes) as zip_memory_file:
    with zip_memory_file.open('Some_shapefile.shp') as collection:
      geodf = gpd.GeoDataFrame.from_features(collection, crs=collection.crs)

0

Il modo più semplice è inserire l'URL GeoJSON direttamente in gpd.read (). Avevo provato a estrarre un file di forma da una zip prima di questo usando BytesIO & zipfile e avevo problemi con gpd (in particolare Fiona) che accettava oggetti simili a file.

import geopandas as gpd
import David.SQL_pull_by_placename as sql
import os

os.environ['PROJ_LIB'] = r'C:\Users\littlexsparkee\Anaconda3\Library\share\proj'

geojson_url = f'https://github.com/loganpowell/census-geojson/blob/master/GeoJSON/500k/2018/{sql.state}/block-group.json?raw=true'
census_tracts_gdf = gpd.read_file(geojson_url)

0

Preferisco il risultato ottenuto usando il non documentato GeoDataFrame.from_features()piuttosto che passare direttamente il GeoJSON al costruttore GDF:

import geopandas as gpd
import requests
data = requests.get("https://data.cityofnewyork.us/api/geospatial/arq3-7z49?method=export&format=GeoJSON")
gpd.GeoDataFrame().from_features(data.json())

Produzione

                       geometry                         name                                url           line objectid                                              notes
0    POINT (-73.99107 40.73005)                     Astor Pl  http://web.mta.info/nyct/service/  4-6-6 Express        1  4 nights, 6-all times, 6 Express-weekdays AM s...
1    POINT (-74.00019 40.71880)                     Canal St  http://web.mta.info/nyct/service/  4-6-6 Express        2  4 nights, 6-all times, 6 Express-weekdays AM s...
2    POINT (-73.98385 40.76173)                      50th St  http://web.mta.info/nyct/service/            1-2        3                              1-all times, 2-nights
3    POINT (-73.97500 40.68086)                    Bergen St  http://web.mta.info/nyct/service/          2-3-4        4           4-nights, 3-all other times, 2-all times
4    POINT (-73.89489 40.66471)             Pennsylvania Ave  http://web.mta.info/nyct/service/            3-4        5                        4-nights, 3-all other times

Il GeoDataFrame risultante ha la colonna della geometria impostata correttamente e tutte le colonne come mi aspetterei, senza la necessità di annotare qualsiasi FeatureCollections

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.