Analogo 2D della deviazione standard?


19

Considera il seguente esperimento: a un gruppo di persone viene fornito un elenco di città e viene chiesto di contrassegnare le posizioni corrispondenti su una mappa del mondo (altrimenti senza etichetta). Per ogni città, otterrai una dispersione di punti approssimativamente centrati sulla rispettiva città. Alcune città, dicono Istanbul, mostreranno meno dispersioni di altre, dicono Mosca.

Supponiamo che per una data città, otteniamo una serie di campioni 2D , che rappresentano la posizione della città (ad esempio in un sistema di coordinate locale) sulla mappa assegnata dal test soggetto . Vorrei esprimere la quantità di "dispersione" dei punti in questo set come un singolo numero nelle unità appropriate (km).( x , y ) i{(xi,yi)}(x,y)i

Per un problema 1D, sceglierei la deviazione standard, ma esiste un analogo 2D che potrebbe ragionevolmente essere scelto per la situazione descritta sopra?


fare una conquista?
RockScience,

Ho aggiunto il tag spaziale dato che l'esempio è esplicitamente spaziale. Se tu (o chiunque altro) ritieni che non sia necessario non esitare a ripristinare tale aggiunta.
Andy W,

Risposte:


12

Una cosa che potresti usare è una misura della distanza da un punto centrale, c=(c1,c2) , come la media campionaria dei punti (x¯,y¯) , o forse il centroide dei punti osservati. Quindi una misura di dispersione sarebbe la distanza media da quel punto centrale:

1ni=1n||zic||

dove . Esistono molte potenziali scelte per una misura della distanza, ma la norma L 2 (ad esempio la distanza euclidea) può essere una scelta ragionevole:zi={xi,yi}L2

||zic||=(xic1)2+(yic2)2

Ci sono molte altre potenziali scelte, però. Vedi http://en.wikipedia.org/wiki/Norm_%28mathematics%29


zic2

6

Un buon riferimento alle metriche per la distribuzione spaziale dei modelli di punti è il manuale di CrimeStat (in particolare per questa domanda, il Capitolo 4 sarà di interesse). Simile alla Macro metrica suggerita, la deviazione di distanza standard è simile a una deviazione standard 2D (l'unica differenza è che si dividerebbe per "n-2" non "n" nella prima formula fornita da Macro).

Il tuo esperimento di esempio in realtà mi ricorda un po 'di come gli studi valutano la profilazione del reato geografico , e quindi le metriche utilizzate in quelle opere potrebbero essere di interesse. In particolare i termini precisione e accuratezza sono usati un po 'e sarebbero pertinenti allo studio. Le ipotesi potrebbero avere una piccola deviazione standard (cioè precisa) ma avere comunque una precisione molto bassa.


1

Penso che dovresti usare "Mahalanobis Distance" piuttosto che le norme di distanza euclidee, poiché tiene conto della correlazione del set di dati ed è "invariante alla scala". Ecco il link:

http://en.wikipedia.org/wiki/Mahalanobis_distance

Puoi anche usare "Profondità a metà spazio". È un po 'più complicato ma condivide molte proprietà interessanti. La Profondità del semispazio (nota anche come Profondità della posizione) di un dato punto a rispetto a un set di dati P è il numero minimo di punti di P che giacciono in un semipiano chiuso determinato da una linea attraverso a. Ecco i link:

http://www.cs.unb.ca/~bremner/research/talks/depth-survey.pdf http://depth.johnhugg.com/DepthExplorerALENEXslides.pdf


1
Capisco di usare le distanze di Mahalanobis quando stai cercando di dire se determinati punti "appartengono" all'insieme, ma non è la distanza euclidea media dal centroide più strettamente correlata al solito concetto di varianza / deviazione standard che viene utilizzato in un impostazione univariata?
Macro,

2
Ti dispiace elaborare le affermazioni "tiene conto della correlazione dei dati" e "è invariante alla scala"? Quale pertinenza hanno queste cose rispetto alla domanda?
Andy W,

La consueta estensione della deviazione standard alla dimensione superiore è ovviamente un modo per calcolare la distanza di un determinato punto dal centro dei dati, ma qui stiamo normalizzando ogni punto, il che semplifica l'esecuzione dell'analisi dei cluster o del rilevamento anomalo. Inoltre, la distanza di Mahalanobis è più adattabile ai casi in cui la distribuzione dei punti non è sferica. Per i casi sfericamente simmetrici, è uguale alla solita deviazione standard estesa, in cui la matrice di covarianza dei punti dati si riduce a matrice identitaria.
VitalStatistix,

1

In realtà ho riscontrato un problema simile di recente. Sembra che tu voglia un modo per misurare quanto bene i punti sono sparsi nell'area. Naturalmente, per una data misurazione, dovresti capire che se tutti i punti sono in linea retta, la risposta è zero, poiché non esiste una varietà bidimensionale.

Dai calcoli che ho fatto, questo è quello che mi è venuto in mente:

SxxSyySxy²

In questo caso, Sxx e Syy sono le varianze di xe di y rispettivamente, mentre Sxy è un po 'come la varianza mista di xe y.

Per elaborare, supponendo che ci siano n elementi, e rappresenta il valore medio di xe rappresenta la media di y:xμyμ

Sxx=1ni=1n(xxμ)²
Syy=1ni=1n(yyμ)²
Sxy=1ni=1n(xxμ)(yyμ)

Spero che questo funzioni per te.

Inoltre, se ti stai chiedendo come farlo in dimensioni più elevate, come misurare la diffusione del volume o la massa di surteron in 4 dimensioni, devi formare una matrice come questa:

Sxx Sxy Sxz ...

Syx Syy Syz ...

Szx Szy Szz ...

... ... ... ...

E continua per tutte le dimensioni di cui hai bisogno. Dovresti essere in grado di capire i valori S date le definizioni fornite sopra, ma per diverse variabili.

Una volta formata la matrice, prendi il determinante, trova la radice quadrata e il gioco è fatto.


0

Per questo esempio specifico - dove esiste una risposta "corretta" prestabilita, rielaborerei le coordinate x / y in modo che siano coordinate polari intorno alla città che è stato loro chiesto di contrassegnare sulla mappa. L'accuratezza viene quindi misurata nuovamente sulla componente radiale (media, sd, ecc.). Un "angolo medio" potrebbe anche essere usato per misurare la distorsione.

Per quanto mi riguarda, sto ancora cercando una buona soluzione quando non esiste un punto centrale predeterminato e non mi piace l'idea di un pre-passaggio sui dati per creare un centroide.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.