Cosa causa un modello a forma di U nel correlogramma spaziale?


12

Nel mio lavoro ho notato questo modello quando si esamina un correlogramma spaziale a varie distanze emerge un modello a forma di U nelle correlazioni. Più specificamente, forti correlazioni positive a piccoli scomparti a distanza diminuiscono con la distanza, quindi raggiungono una fossa in un determinato punto per poi risalire.

Ecco un esempio dal blog di Ecologia della conservazione, Parco giochi di macroecologia (3) - Autocorrelazione spaziale .

I Correlogram di Moran

Queste auto-correlazioni positive più forti a grandi distanze violano teoricamente la prima legge della geografia di Tobler, quindi mi aspetto che sia causata da qualche altro modello nei dati. Mi aspetterei che raggiungano lo zero a una certa distanza e quindi si spostino intorno allo 0 a ulteriori distanze (che è ciò che accade in genere nei grafici delle serie temporali con termini AR o MA di ordine inferiore).

Se esegui una ricerca di immagini di Google puoi trovare alcuni altri esempi di questo stesso tipo di modello (vedi qui per un altro esempio). Un utente sul sito GIS ha pubblicato due esempi in cui il modello appare per Moran's I ma non appare per Geary C ( 1 , 2 ). Insieme al mio lavoro, questi schemi sono osservabili per i dati originali, ma quando si adatta un modello con termini spaziali e si controllano i residui, non sembrano persistere.

Non ho trovato esempi nell'analisi di serie temporali che mostrano un diagramma ACF simile, quindi non sono sicuro di quale modello nei dati originali potrebbe causare questo. Scortchi in questo commento ipotizza che un modello sinusoidale possa essere causato da un modello stagionale omesso in quella serie temporale. Lo stesso tipo di tendenza spaziale potrebbe causare questo modello in un correlogramma spaziale? O è qualche altro artefatto del modo in cui vengono calcolate le correlazioni?


Ecco un esempio del mio lavoro. Il campione è piuttosto grande e le linee grigio chiaro sono un insieme di 19 permutazioni dei dati originali per generare una distribuzione di riferimento (quindi si può vedere che la varianza nella linea rossa dovrebbe essere abbastanza piccola). Quindi, sebbene la trama non sia così drammatica come la prima mostrata, la fossa e poi salire a ulteriori distanze appaiono abbastanza facilmente nella trama. (Nota anche che la mia fossa non è negativa, come lo sono gli altri esempi, se ciò rende materialmente diversi gli esempi, non lo so.)

inserisci qui la descrizione dell'immagine

Ecco una mappa di densità del kernel dei dati per vedere la distribuzione spaziale che ha prodotto detto correlogramma.

KDE Crime in DC


1
I

Posso vedere da dove proviene @ user777, anche se potrei aspettarmi un argomento simile che farebbe in modo che la trama tendesse a 0 man mano che il quartiere spaziale diventa asintoticamente più grande. Cioè, man mano che il quartiere diventa più grande, la media del quartiere sarà più vicina alla media. Nella mia testa (penso) ciò farebbe andare la correlazione verso lo zero, non uno però, ma potrei sbagliarmi facilmente. (Lo stesso argomento dovrebbe valere anche per le serie temporali, e non ricordo di aver visto tracciati ACF per serie temporali che assomigliano a questo però.)
Andy W

Il kde di DC mi ricorda un po 'una scacchiera. Come sarebbe la trama di autocorrelazione spaziale di una scacchiera? Mi chiedo se non sarebbe alto a distanza ravvicinata (stesso quadrato), basso un po 'più lontano (quadrato diverso), e poi di nuovo più in alto. Non so abbastanza su questo argomento per sapere se questa è la risposta, però.
gung - Ripristina Monica

@gung, dipende da come si formula la distanza in quel caso. Per una scacchiera con contiguità regina sarebbe sinonimo di un termine auto-regressivo negativo, che per una serie temporale farebbe sì che un diagramma ACF fosse alternativo tra correlazioni positive e negative (e l'onda si attenuerebbe, probabilmente molto rapidamente in quel caso ). È più complicato nell'analisi spaziale che nelle serie temporali. Tuttavia, non definirei questo schema come una scacchiera.
Andy W,

2
Il tuo set di dati in realtà non ha abbastanza copertura spaziale che dovresti stimare le autocovarianze a una distanza di 5 chilometri (l'intera area non è molto più larga di 10 chilometri e in genere vuoi avere un set di dati che copra molte volte il lunghezza di correlazione.) Mi sembra che tu abbia sostanzialmente tre "macchie" di alto crimine in una forma approssimativamente triangolare, con le macchie a circa 5K l'una dall'altra e spazi vuoti in mezzo. Quindi non è sorprendente vedere una correlazione positiva a quella lunghezza.
Brian Borchers,

Risposte:


4

Spiegazione

Un correlogramma a forma di U è un evento comune quando il suo calcolo viene eseguito su tutta l'estensione della regione in cui si verifica un fenomeno. Si presenta in particolare con fenomeni simili a pennacchi in natura, come la contaminazione localizzata nei suoli o nelle acque sotterranee o, come in questo caso, in cui il fenomeno è associato a una densità di popolazione che generalmente diminuisce verso il limite dell'area di studio (il distretto di Columbia, che ha un nucleo urbano ad alta densità ed è circondata da sobborghi a bassa densità).

Ricordiamo che il correlogramma riassume il grado di somiglianza di tutti i dati in base alla loro quantità di separazione spaziale. I valori più alti sono più simili, i valori più bassi sono meno simili. Le uniche coppie di punti in cui è possibile ottenere la massima separazione spaziale sono quelle che si trovano ai lati diametralmente opposti della mappa. Il correlogramma quindi confronta i valori lungo il confine tra loro. Quando i valori dei dati tendono complessivamente a diminuire verso il limite, il correlogramma può confrontare solo valori piccoli con valori piccoli. Probabilmente li troveranno molto simili.

Per qualsiasi fenomeno simile a pennacchio o altro fenomeno spazialmente unimodale, quindi, possiamo anticipare prima di mai la raccolta dei dati che il correlogramma probabilmente diminuirà fino a raggiungere circa la metà del diametro della regione e quindi inizierà ad aumentare.

Un effetto secondario: variabilità della stima

Un effetto secondario è che sono disponibili più coppie di punti dati per stimare il correlogramma a brevi distanze rispetto a lunghe distanze. A medie e lunghe distanze, le "popolazioni di latenza" di tali coppie di punti diminuiscono. Ciò aumenta la variabilità del correlogramma empirico. A volte questa variabilità da sola creerà schemi insoliti nel correlogramma. Evidentemente è stato usato un grande set di dati nella figura in alto ("I di Moran"), che riduce questo effetto, ma tuttavia l'aumento della variabilità è evidente nelle ampie ampiezze delle fluttuazioni locali nella trama a distanze oltre 3500 circa: esattamente la metà della distanza massima.

Una regola empirica di lunga data nelle statistiche spaziali è quindi quella di evitare di calcolare il correlogramma a distanze maggiori della metà del diametro dell'area di studio e di evitare di utilizzare distanze così grandi per la previsione (come l'interpolazione).

Perché la periodicità spaziale non è la risposta completa

La letteratura sulle statistiche spaziali osserva infatti che modelli spazialmente periodici possono causare un rimbalzo nel correlogramma a distanze maggiori. I geologi minerari chiamano questo "effetto buco". Esiste una classe di variogrammi che incorporano un termine sinusoidale per modellarlo. Tuttavia, questi variogrammi impongono anche un forte decadimento con la distanza, e quindi non possono spiegare l'estremo ritorno alla piena correlazione mostrata nella prima figura. Inoltre, in due o più dimensioni è impossibile che un fenomeno sia sia isotropico (in cui i correlogrammi direzionali sono tutti uguali) e periodico. Pertanto la periodicità dei dati da soli non terrà conto di ciò che viene mostrato.

Cosa si può fare

Il modo corretto di procedere in tali circostanze è accettare che il fenomeno non sia stazionario e adottare un modello che lo descriva in termini di una forma deterministica sottostante - una "deriva" o "tendenza" - con ulteriori fluttuazioni attorno a tale deriva che può avere autocorrelazione spaziale (e temporale). Un altro approccio ai dati come il conteggio dei crimini è quello di studiare una diversa variabile correlata, come il crimine per unità di popolazione.


Grazie, pensi che sia necessaria una certa ponderazione ad hoc per gli effetti bordo? (Ciò potrebbe essere eccessivo per l'analisi esplorativa dei residui del modello.) La mia tesi di laurea Sto attualmente usando la deriva spaziale non lineare e i termini di tendenza - il crimine per unità di popolazione è fastidioso per molteplici ragioni. La popolazione residenziale non è in realtà la linea di base di interesse - è più come camminare intorno alla popolazione. Nelle aree interne della città questo può gonfiarsi molto (20 ~ 30 volte) durante determinate ore ed è più legato alle istituzioni non residenziali (lavoro e divertimento).
Andy W,

Hai molte scelte, Andy, perché non c'è modo di identificare un modello unico: devi decidere dove vuoi smettere di modellare i valori in termini di deriva spaziale e iniziare a modellarli (o meglio, i loro residui) con un modello spaziale stocastico. Il correlogramma a forma di U può essere inteso come una forte indicazione della necessità di un meccanismo per modellare la deriva. La normalizzazione da parte di una popolazione rilevante (anche se può essere stimata solo grossolanamente) è un metodo a tua disposizione. Includere misure di popolazione (o uso, ecc.) Come covariate è un'altra.
whuber

Mi sono avvicinato usando solo una vasta gamma di misure di utilizzo del territorio (bar, stazioni di servizio, ospedale, scuole, ecc.) Più i termini spaziali. Ecco la mappa delle previsioni che mantengono costanti quelle altre covariate . C'è comunque un po 'di autocorrelazione residua. Sono scettico, dato l'errore che può aiutare la mappatura dasimetrica della popolazione in piccoli luoghi, ma immagino che alla fine intraprenderò tale analisi.
Andy W

Questo è un approccio di principio: lascia che la teoria guidi lo sviluppo della componente di deriva del modello e quindi valuti i residui per decidere se varrebbe la pena di modellare la loro autocorrelazione spaziale. In molti casi, la maggior parte delle apparenti relazioni spaziali sono adeguatamente spiegate da termini di deriva ed è raro che sia necessario l'intero macchinario geostatistico. Un aspetto interessante del tuo problema è che la metrica sottostante (distanza spaziale) probabilmente dovrebbe essere il tempo di viaggio o la distanza di viaggio lungo la rete stradale piuttosto che la distanza euclidea.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.