Sto cercando di eseguire un'intersezione tra due livelli:
- Strato polilinea che rappresenta alcune strade (~ 5500 righe)
- Strato poligonale che rappresenta buffer di forma irregolare attorno a vari punti di interesse (~ 47.000 righe)
Alla fine, quello che sto cercando di fare è agganciare le polilinee a questi molti buffer (a volte sovrapposti) e quindi riassumere la lunghezza totale della carreggiata contenuta in ciascun buffer.
Il problema è che le cose funzionano LENTO. Non sono sicuro del tempo necessario, ma ho interrotto la mia query dopo> 34 ore. Spero che qualcuno possa indicare dove ho commesso un errore con la mia query SQL o indicarmi un modo migliore per farlo.
CREATE TABLE clip_roads AS
SELECT
ST_Intersection(b.the_geom, z.the_geom) AS clip_geom,
b.*
FROM
public."roads" b,
public."buffer1KM" z
WHERE ST_Intersects(b.the_geom, z.the_geom);
CREATE INDEX "clip_roads_clip_geom_gist"
ON "clip_roads"
USING gist
(clip_geom);
CREATE TABLE buffer1km_join AS
SELECT
z.name, z.the_geom,
sum(ST_Length(b.clip_geom)) AS sum_length_m
FROM
public."clip_roads" b,
public."buffer1KM" z
WHERE
ST_Contains(z.the_geom, b.the_geom)
GROUP BY z.name, z.the_geom;
Ho un indice GiST creato per la tabella delle strade originale e (solo per sicurezza?) Creo un indice prima di creare la seconda tabella.
Il piano di query di PGAdmin III è simile al seguente, anche se temo di non avere molta abilità nell'interpretarlo:
"Nested Loop (cost=0.00..29169.98 rows=35129 width=49364)"
" Output: st_intersection(b.the_geom, z.the_geom), b.gid, b.geo_id, b.address_l, b.address_r, b.lf_name, b.lfn_id, b.lfn_name, b.lfn_type_c, b.lfn_type_d, b.lfn_dir_co, b.lfn_dir_de, b.lfn_desc, b.oe_flag_l, b.oe_flag_r, b.fcode_desc, b.fcode, b.fnode, b.tnode, b.metrd_num, b.lo_num_l, b.lo_n_suf_l, b.hi_num_l, b.hi_n_suf_l, b.lo_num_r, b.lo_n_suf_r, b.hi_num_r, b.hi_n_suf_r, b.juris_code, b.dir_code, b.dir_code_d, b.cp_type, b.length, b.the_geom"
" Join Filter: _st_intersects(b.the_geom, z.the_geom)"
" -> Seq Scan on public."roads" b (cost=0.00..306.72 rows=5472 width=918)"
" Output: b.gid, b.geo_id, b.address_l, b.address_r, b.lf_name, b.lfn_id, b.lfn_name, b.lfn_type_c, b.lfn_type_d, b.lfn_dir_co, b.lfn_dir_de, b.lfn_desc, b.oe_flag_l, b.oe_flag_r, b.fcode_desc, b.fcode, b.fnode, b.tnode, b.metrd_num, b.lo_num_l, b.lo_n_suf_l, b.hi_num_l, b.hi_n_suf_l, b.lo_num_r, b.lo_n_suf_r, b.hi_num_r, b.hi_n_suf_r, b.juris_code, b.dir_code, b.dir_code_d, b.cp_type, b.length, b.the_geom"
" -> Index Scan using "buffer1KM_index_the_geom" on public."buffer1KM" z (cost=0.00..3.41 rows=1 width=48446)"
" Output: z.gid, z.objectid, z.facilityid, z.name, z.frombreak, z.tobreak, z.postal_cod, z.pc_area, z.ct_id, z.da_id, z.taz_id, z.edge_poly, z.cchs_0708, z.tts_06, z.the_geom"
" Index Cond: (b.the_geom && z.the_geom)"
Questa operazione è destinata a durare diversi giorni? Attualmente sto eseguendo questo su PostGIS per Windows, ma in teoria potrei gettare più hardware al problema installandolo su Amazon EC2. Tuttavia, vedo che la query utilizza solo un core alla volta (esiste un modo per farne un uso maggiore?).