Perché devi fornire un modello variogram quando stai kriging?

Sono molto nuovo nelle statistiche spaziali e guardo molti tutorial,

Ma non capisco perché devi fornire un modello di variogramma quando credi.

Sto usando il pacchetto gstat in R, e questo è l'esempio che danno:

library(sp)
data(meuse)
coordinates(meuse) = ~x+y
data(meuse.grid)
str(meuse.grid)
gridded(meuse.grid) = ~x+y
m <- vgm(.59, "Sph", 874, .04)
print(m)
# ordinary kriging:
x <- krige(log(zinc)~1, meuse, meuse.grid, model = m)

Qualcuno è in grado di spiegare in un paio di righe perché prima devi fornire vgm? E come si impostano i parametri?

Grazie in anticipo! Kasper

spatial

— Kasper
fonte

Per kriging semplice lo stimatore è BLU solo se la covarianza media e spaziale sono note in anticipo. Nel kriging ordinario si stima il variogramma dai dati e quindi si fa l'interpolazione. Vedi la vignetta dal gstatpacchetto R degli stessi dati di meuse.

— Andy W,

Ehi Andy, grazie per il tuo commento. Nella vignetta ho scoperto che puoi anche krige senza un modello variogram. Ho fatto quanto segue: krige (residui ~ 1, temp_plot_spatial, y, nmin = 5, nmax = 10), quindi krige guardando solo un minimo di 5 vicini e un massimo di 10. Ha senso? Il risultato è stato piuttosto

— Kasper

Penso di avere un problema con la modellazione del variogramma: cosa succede se si assume che la correlazione non abbia nulla a che fare con la distanza ma con i vicini più vicini?

— Kasper,

"E se supponessi che la correlazione non abbia nulla a che fare con la distanza ma con i vicini più vicini?" - non è quindi kriging, è più in linea con la classificazione knn. Il codice krige(residuals~1 ,temp_plot_spatial, y, nmin=5, nmax=10)stima vari variogrammi locali. Ad esempio, non si dispone di un variogramma sull'intero spazio di studio, ma si stima un nuovo modello per ogni posizione che si sta tentando di prevedere. Il modello locale prende quindi solo i 10 valori più vicini (poiché non si specifica una distanza massima, dovrebbe sempre prendere 10 valori, quindi nmindovrebbe essere superfluo).

— Andy W,

Quindi stimare i variogrammi locali è una cosa logica da fare. Se variano in base a determinate funzionalità, inclusi altri predittori nel modello, è anche un'opzione. IDW potrebbe essere considerato il tipo più semplice di modello di kriging, quindi IDW non dovrebbe essere migliore della stima effettiva del variogramma dai dati.

— Andy W,

Introduzione e Riepilogo

La legge della geografia di Tobler afferma

Tutto è collegato a tutto il resto, ma vicino alle cose sono più legate delle cose lontane.

Kriging adotta un modello di quelle relazioni in cui

Le "cose" sono valori numerici nelle posizioni sulla superficie terrestre (o nello spazio), generalmente rappresentate come piano euclideo.
Si presume che questi valori numerici siano realizzazioni di variabili casuali.
"Correlato" è espresso in termini di mezzi e covarianze di queste variabili casuali.

(Una raccolta di variabili casuali associate a punti nello spazio è chiamata "processo stocastico"). Il variogramma fornisce le informazioni necessarie per calcolare quelle covarianze.

Che cos'è Kriging

Kriging in particolare è la previsione di cose in luoghi in cui non sono state osservate. Per rendere matematicamente trattabile il processo di previsione, Kriging limita le possibili formule alle funzioni lineari dei valori osservati. Ciò rende il problema un problema finito nel determinare quali dovrebbero essere i coefficienti. Questi possono essere trovati richiedendo che la procedura di previsione abbia determinate proprietà. Intuitivamente, una proprietà eccellente è che le differenze tra il predittore e il valore vero (ma sconosciuto) dovrebbero tendere ad essere piccole: cioè, il predittore dovrebbe essere preciso . Un'altra proprietà molto pubblicizzata ma più discutibile è che in media il predittore dovrebbe eguagliare il valore reale: dovrebbe essere accurato .

(Il motivo per cui insistere sulla perfetta accuratezza è discutibile - ma non necessariamente negativo - è che di solito rende meno precisa una procedura statistica: vale a dire, più variabile. Quando si spara ad un bersaglio, si preferisce sparpagliare uniformemente i colpi attorno al bordo e colpire raramente il centro o accetteresti risultati focalizzati proprio accanto, ma non esattamente sul centro? Il primo è preciso ma impreciso mentre il secondo è impreciso ma preciso.)

Questi presupposti e criteri - che mezzi e covarianze sono modi appropriati per quantificare la relazione, che una previsione lineare funzionerà e che il predittore dovrebbe essere il più preciso possibile soggetto a essere perfettamente accurati - portano a un sistema di equazioni che ha un soluzione unica a condizione che le covarianze siano state specificate in modo coerente . Il predittore risultante è quindi chiamato "BLUP": miglior predittore lineare non distorto.

Dove arriva il Variogram

Per trovare queste equazioni è necessario rendere operativo il programma appena descritto. Questo viene fatto scrivendo le covarianze tra il predittore e le osservazioni considerate variabili casuali. L' algebra delle covarianze fa sì che le covarianze tra i valori osservati entrino anche nelle equazioni di Kriging.

A questo punto raggiungiamo un vicolo cieco, perché quelle covarianze sono quasi sempre sconosciute. Dopotutto, nella maggior parte delle applicazioni abbiamo osservato solo una realizzazione di ciascuna delle variabili casuali: vale a dire il nostro set di dati, che costituisce solo un numero in ogni posizione distinta. Inserisci il variogramma: questa funzione matematica ci dice quale dovrebbe essere la covarianza tra due valori qualsiasi. È vincolato a garantire che queste covarianze siano "coerenti" (nel senso che non fornirà mai un insieme di covarianze matematicamente impossibili: non tutte le raccolte di misure numeriche di "parentela" formeranno vere e proprie matrici di covarianza ). Ecco perché un variogramma è essenziale per Kriging.

Riferimenti

Poiché alla domanda immediata è stata data una risposta, mi fermo qui. I lettori interessati possono imparare come vengono stimati e interpretati i vari diagrammi consultando buoni testi come Mining Geostatistics di Journel & Huijbregts (1978) o Applied Geostatistics (1989) di Isaaks & Srivastava . (Si noti che il processo di stima introduce due oggetti chiamati "variogrammi": un variogramma empirico derivato da dati e un modello vario che è adattato ad esso. Tutti i riferimenti a "variogramma" in questa risposta sono al modello. La chiamata a vgmnella domanda restituisce una rappresentazione al computer di un modello di variogramma.) Per un approccio più moderno in cui la stima del variogramma e Kriging sono opportunamente combinati, vedere Diggle &Geostatistica basata sui modelli (2007) (che è anche un manuale esteso per i Rpacchetti GeoRe GeoRglm).

Commenti

Per inciso, se stai usando Kriging per la previsione o qualche altro algoritmo, la caratterizzazione quantitativa della correlazione offerta dal variogramma è utile per valutare qualsiasi procedura di previsione. Si noti che tutti i metodi di interpolazione spaziale sono predittori da questo punto di vista - e molti di essi sono predittori lineari, come IDW (Inverse Distance Weighted). Il variogramma può essere utilizzato per valutare il valore medio e la dispersione (deviazione standard) di uno qualsiasi dei metodi di interpolazione. Quindi ha applicabilità ben oltre il suo uso in Kriging.

— whuber
fonte

Grazie per questa risposta dettagliata. Pongo la stessa domanda di cui sopra, cosa succede se non riesco a supporre che la correlazione spaziale sia indipendente dalla posizione? È corretto che la modellazione del variogramma non sia quindi utile, poiché dovrei creare un modello del variogramma per tutte le posizioni? È quindi meglio usare IDW?

— Kasper,

Quando non è possibile assumere la stazionarietà del secondo ordine del processo, diverse opzioni includono (1) la raccolta di più realizzazioni del processo (quando varia nel tempo); (2) stima di vari diagrammi su sottoregioni locali (quando vi sono molti dati); e (3) assumendo un modello parametrico per come il variogramma cambia con la posizione (come nei modelli GARCH per i processi 1D). I miei ultimi commenti affrontano direttamente l'invisibilità di ricadere su qualcosa come IDW: se è possibile stimare o meno il variogramma, in linea di principio esiste e quindi IDW è di solito non ottimale.

— whuber