Trovare gruppi di una serie di punti attorno a un'altra serie di punti da un livello diverso?

10

Voglio vedere se c'è un raggruppamento di un certo tipo di edifici (x) attorno a un altro tipo di edifici (y).

I file a due punti sono in livelli diversi.

Non riesco a capire quale strumento userei per fare questo.

arcgis-desktop geoprocessing clustering

— Nikki
fonte

9

Nessuno degli strumenti predefiniti in ArcGIS (o in qualsiasi altro GIS, AFAIK) farà il lavoro correttamente.

In un problema come questo è necessario quantificare ciò che si intende per "raggruppamento" e quindi è necessario posizionare un modello di probabilità per valutare se il grado misurato di raggruppamento avrebbe potuto essere prodotto da possibilità accidentali.

Come esempio di come procedere, è possibile scegliere di misurare il raggruppamento in termini di distanze tipiche tra edifici di tipo xe l' edificio più vicino di tipo y . Questo è un semplice calcolo: rappresenta semplicemente entrambi gli insiemi di edifici con strati di punti separati ed esegui un'unione spaziale tra le Y e le X. La tabella degli attributi, che ha ancora un record per ogni edificio di tipo x , ora includerà la distanza dalla y più vicina . È possibile utilizzare la distanza media come misura.

Testare se questo potrebbe essere il risultato del caso è più complicato. Una plausibile interpretazione di questa impostazione è che la presenza precedente di edifici di tipo y ha incoraggiato lo sviluppo di edifici di tipo x relativamente vicini a quelli di y . Altrimenti, potremmo ipotizzare che gli edifici di tipo x avrebbero potuto essere costruiti ovunque apparissero anche altri edifici. Questo porta al seguente semplice test di permutazione . Crea uno strato di punti di tutte le possibili posizioni in cui potrebbero apparire edifici di tipo x . Questo strato potrebbe essere la posizione di tutti gli edifici nell'area eretta durante lo stesso periodo della xgli edifici erano (compresi gli x edifici stessi, ovviamente). Unisci spazialmente il livello y per ottenere le distanze dall'edificio di tipo y più vicino . Il resto del calcolo funziona al di fuori della tabella degli attributi: i calcoli geografici vengono eseguiti. Quello che farai è usare ripetutamente un generatore di numeri casuali per prendere un semplice campione casuale di tutti questi edifici, ogni campione con esattamente tanti elementi quanti ne hai di tipo x edifici. Calcola la distanza media per questo campione. Ripeti fino a quando non hai molte statistiche sulla distanza media. Se quasi tutte queste distanze medie ottenute casualmente sono superiori alla distanza media misurata per la xtipo di edifici, puoi concludere che le x non sono raggruppate per caso: l'effetto è reale.

(Tali calcoli sono meglio programmati su una piattaforma adatta a tali scopi, come ad esempio "R", ma quasi tutti i software di elaborazione possono essere messi in servizio, anche Excel. La programmazione è molto, richiede poco più che sapere come scrivere loop e selezionare elementi da matrici a caso.)

Questo approccio al test di permutazione è superiore alle soluzioni pre-programmate perché spiega esplicitamente i modelli di sviluppo degli edifici in quest'area. Se non si esegue questa operazione, spesso si trova "significativo" prova di clustering, ma non si può concludere qualcosa di utile da esso, perché il raggruppamento potrebbe essere stato causato da altri fattori come ad esempio i modelli di strade, le posizioni di siti adatti allo sviluppo e molte altre cose.

— whuber
fonte

1

Mi rendo conto che questa risposta è un po 'astratta. Quando avrò più tempo, proverò a creare un'illustrazione realistica.

— whuber

Per coloro che usano R, consiglierei di dare un'occhiata al pacchetto spatstat ( cran.r-project.org/web/packages/spatstat/index.html ) per l'analisi del cluster.

— om_henners,

2

Naturalmente, il metodo di analisi dei dati dovrebbe dipendere dal problema sostanziale che motiva l'analisi.

Ma ecco alcune idee:

Dall'ESRI:

Come funziona l'analisi del cluster spaziale a distanza multipla: la funzione k (Ripatial Statistics) di Ripley , dove io e j nell'equazione indicherebbe i tuoi edifici xey. La funzione K di Ripley fornirà inferenza probabilistica.

Dall'informatica:

Esistono algoritmi complessi per la rilevazione di modelli di co-locazione che puoi usare su Google.

— b_dev
fonte

La "semplice idea della trama" è interessante, ma hai bisogno di qualcosa con cui confrontarla: da sola è difficile estrarre informazioni utili da essa. Anche la funzione K di Ripley è uno strumento utile, ma sfortunatamente in molti casi riflette semplicemente la geometria del set di dati. Con le case in una zona suburbana o rurale, che tendono a trovarsi lungo tratti lineari (strade), la funzione K mostrerà chiaramente raggruppamenti "significativi" solo per questo motivo. In quanto tale non rivela nulla di utile sulle case se non che sono costruite vicino alle strade!

— whuber

@whuber 1st grazie per la spiegazione del problema della funzione K di Ripley. In secondo luogo, quando vediamo un grafico dei prezzi delle azioni nel tempo, possiamo cercare tendenze generali su o giù o casuali, inoltre possiamo individuare i tempi in cui si sono verificati forti diminuzioni o aumenti e chiederci perché. Un diagramma di come la concentrazione degli edifici cambia man mano che le variazioni di distanza possono essere utilizzate allo stesso modo. Può essere usato per cercare picchi di concentrazione, che è una prova contro una distribuzione casuale, inoltre può essere usato per focalizzare ulteriori indagini su picchi curiosi.

— b_dev,

Hai ragione. Il mio punto è che la trama in sé e per sé non ci dice nulla sul clustering. Forse una buona analogia (piuttosto che i prezzi delle azioni) è la mappa coropletica del numero di casi di carcinoma renale per stato 2000-2010 negli Stati Uniti. Anche questo non ci dice nulla sul clustering (geografico) perché non tiene conto delle variazioni della popolazione tra gli stati. Allo stesso modo, un grafico cross-K ha bisogno di una normalizzazione o di un riferimento adeguati per essere interpretabile. Le tendenze generali, i picchi, ecc., Potrebbero semplicemente riflettere i modelli geografici di tutte le posizioni degli edifici.

— whuber

@whuber Hai ragione. Dopo aver letto il tuo commento sopra, ho deciso che la mia idea di trama semplice non fornirà molte informazioni, almeno come è stata descritta, quindi l'ho rimossa per non confondere le persone. Ora credo che la statistica congiunta sia il metodo più semplice per affrontare il problema.

— b_dev,

2

Non ho mai fatto analisi di cluster in GIS da solo, ma sarebbe più semplice creare punti / poligoni per rappresentare un determinato cluster di X e / o Y. Ad esempio, se si creassero punti per indicare l'edificio Y, si potrebbe quindi utilizzare lo strumento Distanza punto per ottenere tutti i punti dell'edificio X a una determinata distanza dalle posizioni di origine.

Altrimenti, la creazione di un buffer attorno agli edifici di tipo Y e la selezione di tutti gli edifici di tipo X otterrà lo stesso risultato se non si dispone di ArcInfo.

— Nathanus
fonte

0

È possibile combinare entrambi i livelli aggiungendo una colonna binaria (0,1) per identificare se l'edificio proviene da X o Y.

Da lì usando GeoDa è possibile identificare l'auto-correlazione spaziale locale (clustering) e determinare se era high-low (uno strato raggruppato attorno all'altro livello) low-high (l'inverso) o high-high o low-low (self- il clustering). Guida dell'utente qui (.pdf)

— raphael
fonte