L'I di Moran , una misura dell'autocorrelazione spaziale, non è una statistica particolarmente solida (può essere sensibile alle distribuzioni distorte degli attributi dei dati spaziali).
Quali sono alcune tecniche più robuste per misurare l'autocorrelazione spaziale? Sono particolarmente interessato a soluzioni prontamente disponibili / implementabili in un linguaggio di scripting come R. Se le soluzioni si applicano a circostanze / distribuzioni di dati uniche, si prega di specificare quelle nella risposta.
EDIT : sto espandendo la domanda con alcuni esempi (in risposta a commenti / risposte alla domanda originale)
È stato suggerito che le tecniche di permutazione (in cui una distribuzione di campionamento I di Moran viene generata utilizzando una procedura Monte Carlo) offrono una soluzione solida. La mia comprensione è che tale test elimina la necessità di fare qualsiasi ipotesi sulla distribuzione dell'I di Moran (dato che la statistica del test può essere influenzata dalla struttura spaziale del set di dati) ma, non riesco a vedere come la tecnica di permutazione corregge per non normale dati degli attributi distribuiti . Offro due esempi: uno che dimostra l'influenza dei dati distorti sulla statistica I di Moran locale, l'altro sulla I di Moran globale - anche sotto test di permutazione.
Userò Zhang et al. Le analisi (2008) come primo esempio. Nel loro articolo, mostrano l'influenza della distribuzione dei dati degli attributi sull'I locale di Moran usando test di permutazione (9999 simulazioni). Ho riprodotto i risultati dell'hotspot degli autori per le concentrazioni di piombo (Pb) (con un livello di confidenza del 5%) usando i dati originali (pannello di sinistra) e una trasformazione del registro degli stessi dati (pannello di destra) in GeoDa. Sono anche presentati i grafici a scatole delle concentrazioni Pb originali e trasformate in ceppi. Qui, il numero di hot spot significativi quasi raddoppia quando i dati vengono trasformati; questo esempio mostra che la statistica locale è sensibile all'attribuzione dei dati, anche quando si usano le tecniche Monte Carlo!
Il secondo esempio (dati simulati) dimostra l'influenza che i dati distorti possono avere sull'I di Moran globale , anche quando si usano i test di permutazione. Un esempio, in R , segue:
library(spdep)
library(maptools)
NC <- readShapePoly(system.file("etc/shapes/sids.shp", package="spdep")[1],ID="FIPSNO", proj4string=CRS("+proj=longlat +ellps=clrk66"))
rn <- sapply(slot(NC, "polygons"), function(x) slot(x, "ID"))
NB <- read.gal(system.file("etc/weights/ncCR85.gal", package="spdep")[1], region.id=rn)
n <- length(NB)
set.seed(4956)
x.norm <- rnorm(n)
rho <- 0.3 # autoregressive parameter
W <- nb2listw(NB) # Generate spatial weights
# Generate autocorrelated datasets (one normally distributed the other skewed)
x.norm.auto <- invIrW(W, rho) %*% x.norm # Generate autocorrelated values
x.skew.auto <- exp(x.norm.auto) # Transform orginal data to create a 'skewed' version
# Run permutation tests
MCI.norm <- moran.mc(x.norm.auto, listw=W, nsim=9999)
MCI.skew <- moran.mc(x.skew.auto, listw=W, nsim=9999)
# Display p-values
MCI.norm$p.value;MCI.skew$p.value
Notare la differenza nei valori P. I dati distorti indicano che non esiste un cluster con un livello di significatività del 5% (p = 0,167) mentre i dati normalmente distribuiti indicano che esiste (p = 0,013).
Chaosheng Zhang, Lin Luo, Weilin Xu, Valerie Ledwith, Uso di Moran's I e GIS locali per identificare i punti di inquinamento di Pb nei suoli urbani di Galway, Irlanda, Science of the Total Environment, Volume 398, Numeri 1–3, 15–3 luglio 2008 , Pagine 212-221