Perché includere latitudine e longitudine in un account GAM per l'autocorrelazione spaziale?


60

Ho prodotto modelli di additivi generalizzati per la deforestazione. Per tenere conto dell'autocorrelazione spaziale, ho incluso latitudine e longitudine come termine di interazione smussato (es. S (x, y)).

Ho basato questo sulla lettura di molti articoli in cui gli autori affermano che "per tenere conto dell'autocorrelazione spaziale, le coordinate dei punti sono state incluse come termini smussati", ma questi non hanno mai spiegato perché ciò spieghi effettivamente. È abbastanza frustrante. Ho letto tutti i libri che posso trovare sui GAM nella speranza di trovare una risposta, ma la maggior parte (ad esempio modelli di additivi generalizzati, un'introduzione con R, SN Wood) tocca l'argomento senza spiegarlo.

Lo apprezzerei davvero se qualcuno potesse spiegare PERCHÉ l'inclusione dei conti di latitudine e longitudine per l'autocorrelazione spaziale e cosa significhi davvero "contabilità" - è semplicemente sufficiente includerlo nel modello o se si confronta un modello con s (x, y) in e un modello senza? E la devianza spiegata dal termine indica l'estensione dell'autocorrelazione spaziale?


Se è rilevante, ho usato la funzione 'bam' dal pacchetto 'mgcv' in R.
gisol,

Inoltre, ho testato l'autocorrelazione spaziale usando Moran's I.
gisol,


3
Date le risposte qui, potremmo contrassegnare gli altri collegamenti Q @Macro come duplicati di questo in modo che le persone che si imbattono in quello vedano le Risposte qui, specialmente quella di whuber.
Gavin Simpson,

+1 @GavinSimpson - a proposito, nota che hai il potere di esprimere voti ravvicinati, abbastanza dei quali porteranno alla fusione delle due domande.
Macro

Risposte:


38

Il problema principale in qualsiasi modello statistico sono le ipotesi alla base di qualsiasi procedura di inferenza. Nel tipo di modello che descrivi, i residui sono considerati indipendenti. Se hanno una dipendenza spaziale e questo non è modellato nella parte simmatica del modello, i residui di quel modello mostreranno anche dipendenza spaziale, o in altre parole saranno autocorrelati nello spazio. Tale dipendenza invaliderebbe, ad esempio, la teoria che produce valori p dalle statistiche dei test nella GAM; non puoi fidarti dei valori p perché sono stati calcolati assumendo l'indipendenza.

Hai due opzioni principali per gestire tali dati; i) modellare la dipendenza spaziale nella parte sistematica del modello, oppure ii) allentare l'assunzione di indipendenza e stimare la correlazione tra residui.

i) è ciò che si sta tentando includendo un liscio delle posizioni spaziali nel modello. ii) richiede una stima della matrice di correlazione dei residui spesso durante l'adattamento del modello usando una procedura come i minimi quadrati generalizzati. Il modo in cui uno di questi due approcci affronta la dipendenza spaziale dipenderà dalla natura e dalla complessità della dipendenza spaziale e dalla facilità con cui può essere modellata.

In sintesi, se è possibile modellare la dipendenza spaziale tra le osservazioni, è più probabile che i residui siano variabili casuali indipendenti e quindi non violino i presupposti di qualsiasi procedura inferenziale.


Grazie per la tua chiara risposta Gavin. Cosa rende l'autocorrelazione spaziale sostanzialmente diversa da qualsiasi gradiente non incluso nel modello? Supponi che la tua area di studio fosse su una collina in pendenza e che le specie di interesse preferissero l'habitat inferiore a quello superiore. Non includere l'elevazione nel modello lascerebbe una struttura tra i residui, no? È semplicemente che l'autocorrelazione spaziale è (o è stata) dimenticata o non considerata? (PS forse questo è un cattivo esempio come inclusione di lat, a lungo spiegherebbe anche questo effetto).
gisol,

4
Sì. Ho il sospetto che negli esempi che hai visto o la componente spaziale fosse interessante, quindi è stata modellata esplicitamente tramite un liscio di lat / lon o la componente spaziale era un termine fastidioso, ma doveva essere modellata per lasciare i residui se la "spaziale" "il componente viene modellato meglio tramite una variabile diversa (ad es. elevazione nel tuo commento), al posto delle posizioni spaziali verrebbe utilizzata una sfumatura di quella variabile.
Gavin Simpson,

1
Perché levigato? Cosa si intende esattamente per "levigato"?
Julian

1
@Julian I valori della risposta sono levigati rispetto alle 2 coordinate spaziali. O, in altri termini, l' effetto spaziale è stimato come una funzione 2D liscia. Per liscio intendiamo che ha una certa oscillazione misurata dalla seconda derivata quadrata integrata della spline. La morbidezza è stata scelta per bilanciare la vestibilità e la complessità del modello. Se vuoi sapere come sono formate le funzioni smooth (spline), potrebbe valere la pena porre una domanda specifica.
Gavin Simpson,

55

z

zy(z)yz(z1,z2)ε

y(z)=β0+β1z1+β2z2+ε(z)

β1β2y(z)y(z)zzy(z)y(z)E[|y(z)y(z)|]

E[(y(z)y(z))2]=E[(β0+β1z1+β2z2+ε(z)(β0+β1z1+β2z2+ε(z)))2]=E[(β1(z1z1)+β2(z2z2)+ε(z)ε(z))2]=E[(β1(z1z1)+β2(z2z2))2+2(β1(z1z1)+β2(z2z2))(ε(z)ε(z))+(ε(z)ε(z))2]=(β1(z1z1)+β2(z2z2))2+E[(ε(z)ε(z))2]

y(z)y(z)

ε(z)

y(z)=β0+ε(z)

εε(z)ε(z)E[ε(z)ε(z)]εzzC(z,z)y(z)y(z)

ρ(y(z),y(z))=C(z,z)C(z,z)C(z,z).

y

E[(y(z)y(z))2]=(β1(z1z1)+β2(z2z2))2+E[(ε(z)ε(z))2]=(β1(z1z1)+β2(z2z2))2+C1(z,z)+C1(z,z)

zzεC1C

εyzzβ0β1

y

E[(y(z)y(z))2]=E[(β0+ε(z)(β0+ε(z)))2]=E[(ε(z)ε(z))2]=E[ε(z)22ε(z)ε(z)+ε(z)2]=C2(z,z)2C2(z,z)+C2(z,z).

C2(z,z)zzy

E[(y(z)y(z))2](β1(z1z1)+β2(z2z2))22C2(z,z)Ci(z,z)

ε). In pratica, i modelli incorporano entrambi i metodi. Quale scegli dipende da cosa vuoi realizzare con il modello e dalla tua visione di come sorge l'autocorrelazione spaziale, sia che sia implicata dalle tendenze sottostanti o che rifletta le variazioni che desideri considerare casuali. Nessuno dei due ha sempre ragione e, in ogni dato problema, è spesso possibile utilizzare entrambi i tipi di modelli per analizzare i dati, comprendere il fenomeno e prevederne i valori in altre posizioni (interpolazione).


2
+1: è bello vedere il collegamento tra due approcci per gestire la dipendenza spaziale. Ottima risposta, whuber!
Macro

Molto comprensivo, grazie. Mi ci vorranno alcuni momenti per riflettere su tutto questo.
gisol,

6
Se tutta la scrittura statistica fosse di questo genere, nel mondo ci sarebbe un lavoro statistico applicato molto più chiaro. Ben fatto.
Ari B. Friedman,

Capisco correttamente questa risposta quando ne ricavo che semplicemente l'aggiunta di coordinate X / Y come variabili indipendenti a qualsiasi modello (?!) spiegherà in parte l'autocorrelazione spaziale?
Giuliano,

1
@Julian: stiamo parlando di costruire modelli diversi per gli stessi dati. Se includi le coordinate X e Y come variabili esplicative ma altrimenti non tiene conto della correlazione spaziale, allora la "correlazione spaziale" non ha senso per questo modello, quindi dobbiamo stare attenti a ciò che intendiamo per "spiegare la correlazione spaziale". Ma se comprendiamo la tua domanda per chiederci se includere le coordinate come variabili esplicative possa essere efficace quanto costruire un modello in cui la correlazione spaziale è esplicitamente rappresentata, allora la mia risposta è "sì, spesso è così".
whuber

0

Le altre risposte sono buone. Volevo solo aggiungere qualcosa sull'autocorrelazione spaziale "tenendo conto". A volte questa affermazione è formulata in modo più forte sulla falsariga di "tenere conto dell'autocorrelazione spaziale non spiegata dalle covariate".

Questo può presentare un'immagine fuorviante di ciò che fa il liscio spaziale. Non è come se ci fosse una fila ordinata nella probabilità in cui il liscio attende pazientemente che le covariate vadano per prime e poi il liscio assorbirà le parti "inspiegabili". In realtà tutti hanno la possibilità di spiegare i dati.

Questo documento con un titolo con un nome appropriato presenta il problema in modo molto chiaro, sebbene dal punto di vista di un modello CAR i principi si applichino ai smooth di GAM.

L'aggiunta di errori spazialmente correlati può incasinare l'effetto fisso che ami

La "soluzione" nella carta è di lisciare i residui invece di levigare lo spazio. Ciò avrebbe l'effetto di consentire alle covariate di spiegare ciò che possono. Naturalmente, ci sono molte applicazioni in cui questa non sarebbe una soluzione desiderabile.


-2

La correlazione spaziale è semplicemente il modo in cui le coordinate xey si riferiscono alla grandezza della superficie risultante nello spazio. Quindi l'autocorrelazione tra le coordinate può essere espressa in termini di relazione funzionale tra i punti vicini.


1
Ciao Michael, grazie per la risposta. Penso di capire quello che hai detto, ma sembra essere una descrizione dell'autocorrelazione spaziale piuttosto che di come l'inclusione delle coordinate lo spieghi, ma potrei mancare il tuo punto. Ad esempio, supponiamo di avere 2 modelli, il primo (A) con un solo termine: la deforestazione in funzione della distanza da una capitale, e il secondo (B) con la distanza dal termine della capitale, ma anche il lat e il long termine. Ti dispiacerebbe ripetere la tua risposta in questo contesto? Forse potrei capirlo meglio.
gisol,

1
Penso che se non ci sono termini di interazione nel modello, l'autocorrelazione spaziale tra punti vicini è 0. Quando si ha un termine di iterazione, quel termine determina il valore delle autocorrelazioni spaziali.
Michael Chernick,

4
@Michael, autocorrelazione spaziale significa che la correlazione tra punti dipende dalle loro posizioni spaziali. Penso che questa risposta sarebbe più utile se tu potessi spiegare perché usare una stima della funzione regolare, con le posizioni spaziali come input, spiega questo. In apparenza, sembra che l'approccio della funzione liscia modelli la media mentre l'autocorrelazione spaziale si riferisce alla struttura della covarianza . So che esiste una relazione tra la funzione di covarianza di un processo regolare e la stima della funzione regolare ma, senza stabilire tale connessione, questa risposta sembra incompleta.
Macro

1
@Michael, sicuramente puoi vedere che fare in modo che le coordinate lat / long influenzino la media è diverso dal modellare le correlazioni tra due punti nello spazio ... L'OP ha chiesto come modellare l'autocorrelazione spaziale e penso che parte dell'argomento - la parte che spiega esattamente come l'adattamento di una superficie spaziale liscia (che è ciò che farebbe un modello di additivo generalizzato nelle coordinate) modella l'autocorrelazione spaziale. Esiste una relazione tra gams e funzioni di covarianza (non ne so abbastanza per essere più preciso) ma fare appello a quella relazione sembra essere ciò che è richiesto qui.
Macro

1
@Marco darei un'occhiata al libro di Simon Wood se puoi, in quanto ha i dettagli e cita la letteratura pertinente sugli smooth come bit di effetti casuali.
Gavin Simpson,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.