Alternative robuste all'I di Moran


19

L'I di Moran , una misura dell'autocorrelazione spaziale, non è una statistica particolarmente solida (può essere sensibile alle distribuzioni distorte degli attributi dei dati spaziali).

Quali sono alcune tecniche più robuste per misurare l'autocorrelazione spaziale? Sono particolarmente interessato a soluzioni prontamente disponibili / implementabili in un linguaggio di scripting come R. Se le soluzioni si applicano a circostanze / distribuzioni di dati uniche, si prega di specificare quelle nella risposta.


EDIT : sto espandendo la domanda con alcuni esempi (in risposta a commenti / risposte alla domanda originale)

È stato suggerito che le tecniche di permutazione (in cui una distribuzione di campionamento I di Moran viene generata utilizzando una procedura Monte Carlo) offrono una soluzione solida. La mia comprensione è che tale test elimina la necessità di fare qualsiasi ipotesi sulla distribuzione dell'I di Moran (dato che la statistica del test può essere influenzata dalla struttura spaziale del set di dati) ma, non riesco a vedere come la tecnica di permutazione corregge per non normale dati degli attributi distribuiti . Offro due esempi: uno che dimostra l'influenza dei dati distorti sulla statistica I di Moran locale, l'altro sulla I di Moran globale - anche sotto test di permutazione.

Userò Zhang et al. Le analisi (2008) come primo esempio. Nel loro articolo, mostrano l'influenza della distribuzione dei dati degli attributi sull'I locale di Moran usando test di permutazione (9999 simulazioni). Ho riprodotto i risultati dell'hotspot degli autori per le concentrazioni di piombo (Pb) (con un livello di confidenza del 5%) usando i dati originali (pannello di sinistra) e una trasformazione del registro degli stessi dati (pannello di destra) in GeoDa. Sono anche presentati i grafici a scatole delle concentrazioni Pb originali e trasformate in ceppi. Qui, il numero di hot spot significativi quasi raddoppia quando i dati vengono trasformati; questo esempio mostra che la statistica locale è sensibile all'attribuzione dei dati, anche quando si usano le tecniche Monte Carlo!

inserisci qui la descrizione dell'immagine

Il secondo esempio (dati simulati) dimostra l'influenza che i dati distorti possono avere sull'I di Moran globale , anche quando si usano i test di permutazione. Un esempio, in R , segue:

library(spdep)
library(maptools)
NC <- readShapePoly(system.file("etc/shapes/sids.shp", package="spdep")[1],ID="FIPSNO", proj4string=CRS("+proj=longlat +ellps=clrk66"))
rn <- sapply(slot(NC, "polygons"), function(x) slot(x, "ID"))
NB <- read.gal(system.file("etc/weights/ncCR85.gal", package="spdep")[1], region.id=rn)
n  <- length(NB)
set.seed(4956)
x.norm <- rnorm(n) 
rho    <- 0.3          # autoregressive parameter
W      <- nb2listw(NB) # Generate spatial weights
# Generate autocorrelated datasets (one normally distributed the other skewed)
x.norm.auto <- invIrW(W, rho) %*% x.norm # Generate autocorrelated values
x.skew.auto <- exp(x.norm.auto) # Transform orginal data to create a 'skewed' version
# Run permutation tests
MCI.norm <- moran.mc(x.norm.auto, listw=W, nsim=9999)
MCI.skew <- moran.mc(x.skew.auto, listw=W, nsim=9999)
# Display p-values
MCI.norm$p.value;MCI.skew$p.value

Notare la differenza nei valori P. I dati distorti indicano che non esiste un cluster con un livello di significatività del 5% (p = 0,167) mentre i dati normalmente distribuiti indicano che esiste (p = 0,013).


Chaosheng Zhang, Lin Luo, Weilin Xu, Valerie Ledwith, Uso di Moran's I e GIS locali per identificare i punti di inquinamento di Pb nei suoli urbani di Galway, Irlanda, Science of the Total Environment, Volume 398, Numeri 1–3, 15–3 luglio 2008 , Pagine 212-221


1
Hai un riferimento per la sensibilità alle distribuzioni distorte)? Sei interessato ai test globali di distribuzione spaziale non casuale o all'identificazione di caratteristiche anormali locali? Qual è la distribuzione del risultato di interesse (variabile positiva?)
Andy W

1
AndyW: 1) Un riferimento alla sensibilità del test è 'Analisi spaziale di Fortin e Dale, Una guida agli ecologi' (p. 125), 2) Sono interessato a soluzioni per test sia globali che locali, 3) Non ho specifiche distribuzione dei dati in mente.
MannyG

1
Andy, poiché l'Io di Moran si basa su varianze ponderate e stime di covarianza, avrà la stessa sensibilità ai valori anomali di quelle stime, il che (come è noto) è considerevole. Questa intuizione indica anche la strada a molte possibili soluzioni al problema di Manny: sostituisci le tue solide versioni preferite di stime di dispersione e associazione per formare una correlazione ponderata solida e sei pronto e funzionante.
whuber

1
Sembra che tu possa confondere qui diversi concetti, @Andy. Innanzitutto, Manny vuole misurare l' autocorrelazione; non sta necessariamente conducendo un test di ipotesi. In secondo luogo, la domanda con i test di ipotesi è meglio formulata in termini di potenza piuttosto che di robustezza. Ma (terzo) i concetti hanno una connessione: una solida statistica di prova tenderà a mantenere il suo potere in una vasta gamma di violazioni di ipotesi distributive (come la contaminazione da parte di valori anomali) mentre una statistica di prova non robusta potrebbe perdere la maggior parte o tutti i il suo potere in quelle situazioni.
whuber

1
@ FC84, ho rivisto questo problema l'anno scorso e ho scritto una soluzione proposta. Ma ha bisogno di controllare. Ho intenzione di offrire una versione (molto) ridotta di tale articolo come risposta qui ad un certo punto. Sentiti libero di raccogliere ciò che puoi da ciò che ho. Ma usalo con cautela!
MannyG,

Risposte:


2

(Questo è troppo ingombrante a questo punto per trasformarsi in un commento)

Ciò riguarda i test locali e globali (non una misura specifica, indipendente dal campione di auto-correlazione). Posso apprezzare che la misura I di Moran specifica è una stima distorta della correlazione (interpretandola negli stessi termini del coefficiente di correlazione di Pearson), non vedo ancora come il test di ipotesi di permutazione sia sensibile alla distribuzione originale della variabile ( in termini di errori di tipo 1 o di tipo 2).

Adattando leggermente il codice fornito nel commento ( colqueenmancavano i pesi spaziali );

library(spdep)
data(columbus)
attach(columbus)

colqueen <- nb2listw(col.gal.nb, style="W") #weights object was missing in original comment
MC1 <- moran.mc(PLUMB,colqueen,999)
MC2 <- moran.mc(log(PLUMB),colqueen,999)
par(mfrow = c(2,2))
hist(PLUMB, main = "Histogram PLUMB")
hist(log(PLUMB), main = "HISTOGRAM log(PLUMB)")
plot(MC1, main = "999 perm. PLUMB")
plot(MC2, main = "999 perm. log(PLUMB)")

Quando si conducono test di permutazione (in questo caso, mi piace pensarlo come spazio confuso) il test di ipotesi di auto-correlazione spaziale globale non dovrebbe essere influenzato dalla distribuzione della variabile, poiché la distribuzione del test simulato cambierà sostanzialmente con la distribuzione delle variabili originali. Probabilmente si potrebbero escogitare simulazioni più interessanti per dimostrarlo, ma come si può vedere in questo esempio, le statistiche dei test osservate sono ben al di fuori della distribuzione generata sia per l'originale PLUMBche per il log PLUMB(che è molto più vicino a una distribuzione normale) . Sebbene sia possibile vedere la distribuzione del test PLUMB registrata sotto gli spostamenti null più vicini alla simmetria di circa 0.

inserisci qui la descrizione dell'immagine

Lo avrei suggerito comunque come alternativa, trasformando la distribuzione in approssimativamente normale. Stavo anche suggerendo di cercare risorse sul filtraggio spaziale (e similmente le statistiche locali e globali di Getis-Ord), anche se non sono sicuro che questo possa aiutare con una misura priva di scala (ma forse potrebbe essere fruttuoso per i test di ipotesi) . Riporterò più tardi con potenzialmente più letteratura di interesse.


Grazie Andy per il tuo account dettagliato. Se ti capisco correttamente, il tuo insinuare che in un test di permutazione la statistica del test (Moran's I) non cambierà rispetto alla distribuzione MC risultante, ma questo non è d'accordo con le mie osservazioni. Ad esempio, se utilizziamo la variabile HOVAL nello stesso set di dati columbus, il valore p del test I di MC Moran risultante va da 0,029 (con i dati originali distorti) a 0,004 (con i dati trasformati del registro) che indica un divario crescente tra l'MC statistica di distribuzione e test - non trascurabile se avessimo impostato la soglia all'1%.
MannyG

1
Sì, stai interpretando correttamente il mio punto. È certamente possibile trovare una serie particolare in cui i risultati differiscono. La domanda diventa se i tassi di errore sono gli stessi o meno in una varietà di circostanze.
Andy W,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.