Modello di regressione e autocorrelazione spaziale


15

Ho usato OLS e GWR per convalidare le dipendenze tra due database distinti. Il quadrato residuo per GWR è 0,82 e quindi il modello di regressione corretto da utilizzare per determinare la relazione tra i due set di dati.

Quello che volevo sapere, GWR come regressione locale e OLS come regressione globale, che dovrebbe essere usato dove e quando?

Inoltre cosa significa veramente se Moran's I per il modello GWR è Casuale?

Risposte:


13

Quali sono queste procedure

Sebbene OLS e GWR condividano molti aspetti della loro formulazione statistica, vengono utilizzati per scopi diversi:

  • OLS modella formalmente una relazione globale di un tipo particolare. Nella sua forma più semplice, ogni record (o caso) nel set di dati è costituito da un valore, x, impostato dallo sperimentatore (spesso chiamato "variabile indipendente") e da un altro valore, y, che viene osservato (la "variabile dipendente" ). OLS suppone che y sia approssimativamentein relazione a x in un modo particolarmente semplice: vale a dire, esistono numeri (sconosciuti) 'a' e 'b' per i quali a + b * x sarà una buona stima di y per tutti i valori di x a cui lo sperimentatore potrebbe essere interessato . La "buona stima" riconosce che i valori di y possono e varieranno da qualsiasi previsione matematica perché (1) lo fanno davvero - la natura è raramente semplice come un'equazione matematica - e (2) y viene misurata con alcuni errore. Oltre a stimare i valori di aeb, OLS quantifica anche la quantità di variazione in y. Ciò offre a OLS la capacità di stabilire la significatività statistica dei parametri a e b.

Ecco un adattamento OLS:

inserisci qui la descrizione dell'immagine

  • GWR viene utilizzato per esplorare le relazioni locali . In questa impostazione ci sono ancora coppie (x, y), ma ora (1) in genere si osservano sia x che y - nessuno dei due può essere determinato in anticipo da uno sperimentatore - e (2) ogni record ha una posizione spaziale, z . Per qualsiasi posizione, z (non necessariamente nemmeno una in cui sono disponibili dati), GWR applica l' algoritmo OLS ai valori dei dati vicini per stimare una relazione specifica della posizione tra y e x nella forma y = a (z) + b (z) *X. La notazione "(z)" sottolinea che i coefficienti aeb variano tra le posizioni. Come tale, GWR è una versione specializzata di levigatori a peso localein cui vengono utilizzate solo le coordinate spaziali per determinare i quartieri. Il suo output viene utilizzato per suggerire come i valori di x e y covary in una regione spaziale. È interessante notare che spesso non c'è motivo di scegliere quale di 'x' e 'y' debbano svolgere il ruolo di variabile indipendente e variabile dipendente nell'equazione, ma quando si cambiano questi ruoli, i risultati cambieranno ! Questo è uno dei tanti motivi per cui GWR dovrebbe essere considerato esplorativo - un aiuto visivo e concettuale per comprendere i dati - piuttosto che un metodo formale.

Ecco un liscio ponderato localmente. Nota come può seguire le "oscillazioni" apparenti nei dati, ma non passa esattamente attraverso ogni punto. (Può essere fatto per passare attraverso i punti, o per seguire piccole oscillazioni, modificando un'impostazione nella procedura, esattamente come GWR può essere fatto per seguire i dati spaziali più o meno esattamente modificando le impostazioni nella sua procedura.)

lowess

Intuitivamente, pensa a OLS come adattare una forma rigida (come una linea) al diagramma a dispersione di coppie (x, y) e GWR come a consentire a quella forma di oscillare arbitrariamente.

Scegliendo tra loro

Nel presente caso, sebbene non sia chiaro cosa significhino "due database distinti", sembra che l'utilizzo di OLS o GWR per "convalidare" una relazione tra di essi possa essere inappropriato. Ad esempio, se i database rappresentano osservazioni indipendenti della stessa quantità nello stesso set di posizioni, allora (1) OLS è probabilmente inappropriato perché sia x (i valori in un database) che y (i valori nell'altro database) dovrebbero essere concepito come variabile (invece di pensare a x come fisso e rappresentato con precisione) e (2) GWR va bene per esplorare la relazione tra xey, ma non può essere usato per validarequalsiasi cosa: è garantito trovare relazioni, non importa cosa. Inoltre, come osservato in precedenza, i ruoli simmetrici di "due database" indicano che uno potrebbe essere scelto come 'x' e l'altro come 'y', portando a due possibili risultati GWR che sono garantiti differire.

Qui è un liscio ponderato localmente degli stessi dati, invertendo i ruoli di xey. Confronta questo con la trama precedente: nota quanto è più ripida la vestibilità complessiva e in che modo differisce anche nei dettagli.

Lowess 2

Sono necessarie tecniche diverse per stabilire che due database forniscono le stesse informazioni o per valutare la loro propensione relativa o precisione relativa. La scelta della tecnica dipende dalle proprietà statistiche dei dati e dallo scopo della validazione. Ad esempio, i database delle misurazioni chimiche verranno in genere confrontati utilizzando tecniche di calibrazione .

Interpretazione di Moran I

È difficile dire cosa significhi un "Io di Moran per il modello GWR". Immagino che una statistica I di Moran possa essere stata calcolata per i residui di un calcolo GWR. (I residui sono le differenze tra i valori effettivi e adattati.) I di Moran è una misura globale di correlazione spaziale. Se è piccolo, suggerisce che le variazioni tra i valori y e gli adattamenti GWR rispetto ai valori x abbiano una correlazione spaziale scarsa o nulla. Quando GWR è "sintonizzato" sui dati (questo implica decidere su cosa costituisca realmente un "vicino" di qualsiasi punto), ci si aspetta una bassa correlazione spaziale nei residui perché GWR (implicitamente) sfrutta qualsiasi correlazione spaziale tra x e y valori nel suo algoritmo.


Quindi in GWR hai detto che l'inversione delle variabili dà risultati diversi ma quello, che dà un quadrato residuo più alto, non significa che mostra una relazione più forte tra i due?
Sam007,

Sam, un quadrato residuo basso in sé non indica una relazione più forte. In particolare, quando si invertono i ruoli di xey, non è nemmeno possibile confrontare i quadrati residui: spesso si trovano in unità diverse. (Ad esempio, una potrebbe essere una temperatura quadrata e l'altra potrebbe essere una quantità quadrata di precipitazioni: come si fa a sapere quale è inferiore?) È sempre possibile ridurre un quadrato residuo includendo più parametri in un modello, anche se sono insignificanti : andare troppo lontano in questa direzione si chiama "overfitting". In un certo senso, GWR con un breve raggio spaziale è una forma di overfitting.
whuber

2
Potresti pensare a R al quadrato, Sam: è un rapporto. (Ho capito che il "quadrato residuo" è esattamente quello che dice: la somma dei quadrati dei residui. La maggior parte dei software di statistica riporta questa statistica insieme ai valori del R-quadrato.) Ma è ancora pericoloso, e di solito sbagliato, confrontare diversi modelli (come come y in termini di x rispetto a x in termini di y) in termini di R-quadrato: consultare stats.stackexchange.com/questions/13314 . Poiché GWR è esplorativo, è ottimo per trovare schemi e ipotizzare relazioni, ma (come di solito praticato, comunque) non è adatto a giustificare affermazioni.
whuber

1
WOW, erano davvero tutte le statistiche. In realtà il motivo per cui lo trovo difficile è perché ho un background molto scarso nelle statistiche, quindi mi affido esclusivamente ai risultati dei modelli, senza capire cosa significano esattamente. La maggior parte delle cose su R2, sono andate oltre la mia testa. Potresti suggerire qualche buon libro per principianti per farmi iniziare e costruire le mie basi nelle statistiche?
Sam007,


3

Rsquared non dovrebbe essere usato per confrontare i modelli. Usa probabilità logaritmica o valori AIC.

Se i tuoi residui in GWR sono casuali o immagino che sembrino casuali (non statisticamente sig.) Di quanto potresti avere un modello specificato. Almeno suggerisce che non hai residui correlati e che dovrebbe suggerire di non avere variabili omesse.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.