Confrontando due schemi di punti spaziali?


41

Se avessi due distribuzioni di pattern a punti all'interno della stessa area geografica, come potrei fare per confrontare visivamente e quantitativamente queste due distribuzioni?

Supponi anche che ho molti punti all'interno di una regione più piccola, quindi la semplice visualizzazione di una mappa di spilli non è informativa.

Risposte:


32

Come sempre, dipende dai tuoi obiettivi e dalla natura dei dati. Per dati completamente mappati , un potente strumento è la funzione L di Ripley, un parente stretto della funzione K di Ripley . Molti software possono calcolarlo. ArcGIS potrebbe farlo ormai; Non ho controllato CrimeStat lo fa. Quindi, fare GeoDa e R . Un esempio del suo utilizzo, con le mappe associate, appare in

Sinton, DS e W. Huber. Mappatura della polka e del suo patrimonio etnico negli Stati Uniti. Journal of Geography Vol. 106: 41-47. 2007

Ecco uno screenshot di CrimeStat della versione "Funzione L" di K di Ripley:

Schermata della funzione K di Ripley

La curva blu documenta una distribuzione dei punti molto non casuale, perché non si trova tra le bande rosse e verdi che circondano lo zero, che è dove dovrebbe trovarsi la traccia blu per la funzione L di una distribuzione casuale.

Per i dati campionati, molto dipende dalla natura del campionamento. Una buona risorsa per questo, accessibile a coloro che hanno un background limitato (ma non del tutto assente) in matematica e statistiche, è il libro di testo di Steven Thompson sul campionamento .

In genere, la maggior parte dei confronti statistici può essere illustrata graficamente e tutti i confronti grafici corrispondono o suggeriscono una controparte statistica. Pertanto, qualsiasi idea ottenuta dalla letteratura statistica potrebbe suggerire modi utili per mappare o confrontare graficamente i due set di dati.


Grazie per il documento Dixon, sembra essere una risorsa eccellente. Non avevo mai trovato la distinzione tra interazione spaziale e etichettatura casuale per modelli multi-variabile. Dovrò leggere.
Andy W,

+1 Buone risorse. Quindi il vecchio principio di pesca secondo cui "il 90% dei pesci si trova nel 10% del lago" dipende davvero dal metodo di campionamento?
Kirk Kuykendall il

@Kirk Per molti di noi, lo 0% dei pesci si trova nel 10% del lago che riusciamo effettivamente a raggiungere!
whuber

14

Nota: il seguente è stato modificato in seguito al commento di Whuber

Potresti voler adottare un approccio Monte Carlo. Ecco un semplice esempio. Supponiamo che tu voglia determinare se la distribuzione degli eventi criminali A è statisticamente simile a quella di B, potresti confrontare la statistica tra gli eventi A e B con una distribuzione empirica di tale misura per "marcatori" riassegnati casualmente.

Ad esempio, data una distribuzione di A (bianco) e B (blu),

inserisci qui la descrizione dell'immagine

riassegni casualmente le etichette A e B a TUTTI i punti nel set di dati combinato. Questo è un esempio di una singola simulazione:

inserisci qui la descrizione dell'immagine

Lo ripeti molte volte (diciamo 999 volte) e, per ogni simulazione, calcoli una statistica (statistica media vicina più vicina in questo esempio) usando i punti etichettati casualmente. Gli snippet di codice che seguono sono in R (richiede l'uso della libreria spatstat ).

nn.sim = vector()
P.r = P
for(i in 1:999){
  marks(P.r) = sample(P$marks)  # Reassign labels at random, point locations don't change
  nn.sim[i] = mean(nncross(split(P.r)$A,split(P.r)$B)$dist)
}

È quindi possibile confrontare graficamente i risultati (la linea verticale rossa è la statistica originale),

hist(nn.sim,breaks=30)
abline(v=mean(nncross(split(P)$A,split(P)$B)$dist),col="red")

inserisci qui la descrizione dell'immagine

o numericamente.

# Compute empirical cumulative distribution
nn.sim.ecdf = ecdf(nn.sim)

# See how the original stat compares to the simulated distribution
nn.sim.ecdf(mean(nncross(split(P)$A,split(P)$B)$dist)) 

Si noti che la statistica del vicino più vicino medio potrebbe non essere la migliore misura statistica per il problema. Statistiche come la funzione K potrebbero essere più rivelatrici (vedi la risposta di whuber).

Quanto sopra potrebbe essere facilmente implementato all'interno di ArcGIS usando Modelbuilder. In un ciclo, riassegnando casualmente i valori degli attributi a ciascun punto, quindi calcolare una statistica spaziale. Dovresti essere in grado di calcolare i risultati in una tabella.


2
Potresti prendere in considerazione un test di permutazione invece dell'approccio alla densità del kernel, Manny. L'ipotesi nulla è che le etichette blu e bianche siano indipendenti dai punti. Per verificarlo, adotta una statistica appropriata per il quartiere (come la distanza media più vicina tra punti blu e bianchi, viaggiando lungo le strade). Riassegna casualmente i colori a tutti i punti, mantenendo le stesse quantità di blu e bianco e ricalcola la statistica. Ripetere più volte per stimare la distribuzione nulla della statistica. Fare riferimento al valore effettivo della statistica a questa distribuzione per ottenere un valore p.
whuber

Grazie whuber. Non mi è mai venuto in mente di vederlo come un problema marcato. Ho aggiornato la mia risposta per riflettere questo approccio. Tuttavia, non mi è chiaro il motivo per cui il mio approccio originale (ovvero l'uso di una griglia di densità del kernel per generare punti casuali) abbia prodotto un risultato diverso. In effetti (la mia soluzione originale) non rifletteva fedelmente il fatto che sia A che B provenissero da un processo simile. Questo perché l'approccio alla densità del kernel non sfrutta i dettagli forniti dai dati puntuali?
MannyG

1
La densità del kernel ha un piccolo elemento di arbitrarietà (associato alla scelta della mezza larghezza). Questo può fare la differenza. È anche un po 'rimosso da ciò che sta realmente accadendo: c'è un processo sottostante che produce punti; vedi una realizzazione di quel processo; si effettua una KDE di esso ; quindi attingi nuove realizzazioni da quel KDE. In effetti stai solo riproducendo nuove configurazioni in modo molto simile alla configurazione singola che osservi. Nell'approccio di permutazione, l'ipotesi nulla che entrambe le distribuzioni siano le stesse giustifica permutare i segni: questo è diretto e potente.
whuber

1
Grazie per l'input, darò un commento più completo quando avrò più tempo. Sarebbe bene annotare questo codice R (hai anche detto che è il codice R nella risposta?) E utilizza le funzioni nel spatstatpacchetto.
Andy W,

2
+1, Una delle cose belle dell'utilizzo di test di permutazione come questo è 1) quando vincolata alla specificità del geocoder (indirizzi o intervalli di indirizzi per i dati sulla criminalità nella maggior parte dei casi) non valuta troppo i modelli di punti rispetto alla casualità spaziale completa molto senso. 2) Tali test di permutazione evitano problemi con effetti collaterali. Ovviamente si tratta di generalizzazioni eccessive, ma penso che un simile quadro possa essere generalizzato alla valutazione di molti diversi tipi di statistiche di schemi di punti.
Andy W,

4

Potresti voler dare un'occhiata a CrimeStat.

Secondo il sito Web:

CrimeStat è un programma di statistica spaziale per l'analisi delle posizioni degli incidenti criminali, sviluppato da Ned Levine & Associates, che è stato finanziato da sovvenzioni dell'Istituto Nazionale di Giustizia (sovvenzioni 1997-IJ-CX-0040, 1999-IJ-CX-0044, 2002-IJ-CX-0007 e 2005-IJ-CX-K037). Il programma è basato su Windows e si interfaccia con la maggior parte dei programmi GIS desktop. Lo scopo è fornire strumenti statistici supplementari per aiutare le forze dell'ordine e i ricercatori della giustizia penale nei loro sforzi di mappatura del crimine. CrimeStat viene utilizzato da molti dipartimenti di polizia di tutto il mondo, dalla giustizia penale e da altri ricercatori. L'ultima versione è 3.3 (CrimeStat III).


2

Un approccio semplice e veloce potrebbe essere quello di creare mappe di calore e una mappa delle differenze di queste due mappe di calore. Correlati: Come costruire mappe di calore efficaci?


3
Sfortunatamente, differenziare due mappe interpolate o levigate tende a dirti molto di più sull'interpolazione o sul metodo di smoothing piuttosto che sui dati :-(. Se devi interpolare, fai attenzione a farlo bene (ad es. Krige dopo aver eseguito EDA e variografia) e basta interpolare uno dei set di dati. È possibile confrontare i dati effettivi in ​​un set con i valori interpolati dell'altro, eliminando in tal modo metà dell'errore nel confrontare due mappe interpolate. Si noti che l'interpolazione non è valida per molti tipi di dati e il livellamento non è appropriato per altri tipi di dati
whuber

Sono d'accordo che questo metodo non è adatto a molti tipi di dati di input. Penso che possa dare una buona prima impressione durante l'analisi dei modelli di densità dei punti.
underdark

Non ho dubbi sul fatto che tu abbia ragione quando l'interpolazione viene eseguita da un esperto e interpretata con giudizio.
whuber

2

Supponendo di aver esaminato la letteratura sull'auto-correlazione spaziale. ArcGIS dispone di vari strumenti punta e clicca per farlo tramite gli script Toolbox: Strumenti statistiche spaziali -> Analisi dei modelli .

Potresti lavorare all'indietro - Trova uno strumento e rivedi l'algoritmo implementato per vedere se si adatta al tuo scenario. Ho usato Moran's Index qualche tempo fa mentre studiavo la relazione spaziale nella presenza di minerali del suolo.


2

È possibile eseguire un'analisi di correlazione bivariata in molti software statistici per determinare il livello di correlazione statistica tra le due variabili e il livello di significatività. È quindi possibile eseguire il backup dei risultati statistici mappando una variabile utilizzando uno schema di cloropleth e l'altra variabile utilizzando simboli graduati. Una volta sovrapposti, è quindi possibile determinare quali aree mostrano relazioni spaziali alta / alta, alta / bassa e bassa / bassa. Questa presentazione ha alcuni buoni esempi.

Puoi anche provare alcuni software di geovisualizzazione unici. Mi piace molto CommonGIS per questo tipo di visualizzazione. Puoi selezionare un quartiere (il tuo esempio) e tutte le statistiche e le trame utili saranno immediatamente disponibili. Rende abbastanza semplice l'analisi delle mappe a più variabili.


2
Queste sono buone idee, ma noto che gli esempi a cui fai riferimento hanno esito positivo perché gli attributi corrispondono a insiemi di funzionalità comuni. Nella presente domanda, le funzionalità hanno posizioni diverse e tali posizioni sono variabili casuali (ad esempio unità amministrative non fisse). Queste sono complicazioni importanti, perché ora dobbiamo trovare alcune procedure significative per mettere in relazione i valori di una posizione con quelli di altre posizioni e dobbiamo affrontare il carattere casuale delle posizioni stesse.
whuber

Grazie per quel chiarimento! Ho letto male l'OP e ho pensato che fosse per due variabili indipendenti che condividevano una posizione / estensione geografica (come con DA / CT ecc.)
Michael Markieta,

1

Un'analisi quadrata sarebbe ottima per questo. È un approccio GIS in grado di evidenziare e confrontare i modelli spaziali dei diversi livelli di dati dei punti.

Uno schema di un'analisi quadrat che quantifica le relazioni spaziali tra più livelli di dati a punti è disponibile all'indirizzo http://www.nccu.edu/academics/sc/artsandsciences/geospatialscience/_documents/se_daag_poster.pdf .


1
(1) Il collegamento è un 404 (motivo per cui chiediamo risposte per includere riassunti di tutti i collegamenti). (2) Con quale precisione un'analisi quadrat confronta le distribuzioni di due punti ?
whuber

(1) Il collegamento potrebbe funzionare ora. (2) Un'analisi quadrata divide una determinata area in unità di dimensioni uguali, dimensionate in modo appropriato. Quindi utilizza l'analisi di probabilità per determinare la frequenza effettiva dei punti all'interno di ciascun quadrat rispetto a un valore atteso per ciascuna frequenza. Utilizzando il comando della densità dei punti e le statistiche zonali come strumenti di tabella nell'estensione dell'analista spaziale per ArcMap, possiamo evidenziare le aree in prossimità delle posizioni dei punti ad alta densità oltre a riepilogare queste classi di caratteristiche dei punti per l'analisi di regressione.

È stata descritta una procedura per l' analisi univariata delle distribuzioni dei punti. Potrebbe essere adattato (valutando le correlazioni del quadrat) al confronto del grado di ricorrenza dei due processi, ma soffre di due limiti significativi. Innanzitutto, non studia le relazioni tra i processi in funzione della distanza; secondo, binning dei punti in quadrat perde potenza. Una perdita di potere significa che potresti non riuscire a identificare modelli importanti oppure implica che devi raccogliere più dati per raggiungere gli obiettivi dell'indagine.
whuber

Ho usato questa "procedura" per l'analisi multivariata delle distribuzioni dei punti. Sebbene implichi una perdita di potere, fornisce anche un modo per confrontare visivamente e quantitativamente le distribuzioni di modelli a due punti a livelli univoci di aggregazione (una soluzione per la domanda originale qui).

Spero che ciò che leggi sul nostro sito ti ispiri a considerare approcci alternativi in ​​futuro: amplieranno la tua capacità di sfruttare al meglio i tuoi dati e le risorse di ricerca limitate.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.