Come trovare relazioni tra diversi tipi di eventi (definiti dalla loro posizione 2D)?


9

Ho un set di dati di eventi accaduti durante lo stesso periodo di tempo. Ogni evento ha un tipo (ci sono pochi tipi diversi, meno di dieci) e una posizione, rappresentata come un punto 2D.

Vorrei verificare l'esistenza di una correlazione tra i tipi di eventi o tra il tipo e la posizione. Ad esempio, forse gli eventi di tipo A di solito non si verificano dove si verificano eventi di tipo B. O forse in alcune aree, ci sono principalmente eventi di tipo C.

Che tipo di strumenti potrei usare per eseguire questo? Essendo un novizio nell'analisi statistica, la mia prima idea è stata quella di utilizzare una sorta di PCA (Principal Component Analysis) su questo set di dati per vedere se ogni tipo di evento aveva il suo componente o forse alcuni lo condividevano (cioè erano correlati)?

Devo dire che il mio set di dati è dell'ordine di 500'000 punti , rendendo le cose un po 'più difficili da gestire.(x,y,type)

MODIFICA: Come notato nelle risposte seguenti e nei commenti, la strada da percorrere è modellare questo come un processo a punti marcati, quindi utilizzare R per eseguire tutto il lavoro pesante, come spiegato in dettaglio in questo rapporto del seminario: http: / /www.csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html


Si tratta di un set di dati raster, come un'immagine rilevata in remoto (elaborata) o è un set di dati irregolare?
whuber

Beh, penso che lo chiameresti irregolare: sono registrazioni di crimini avvenuti nel Regno Unito durante un determinato mese, disponibili qui: police.uk/data .
Wookai,

@Wookai 500.000.000 di crimini nel Regno Unito in un mese ?? L'anarchia è scesa sulle isole britanniche non segnalata dalla stampa, solo per essere rivelata nei fascicoli della polizia? :-) Potrei credere circa 1/100 di tale importo - a malapena.
whuber

Wow, mi dispiace davvero per questo "refuso";)! In realtà è 1000 volte meno, 500'000 crimini (contando i "crimini dei veicoli", cioè i biglietti rapidi, ecc ...).
Wookai,

1
Sì, R sembra la strada da percorrere! Ho trovato un rapporto molto completo di un seminario sul modulo spatstat di R, che fa esattamente quello che sto cercando: csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html
Wookai

Risposte:


3

Il tipo di dati che descrivi è di solito chiamato "modelli di punti marcati", R ha una vista delle attività per le statistiche spaziali che offre molti buoni pacchetti per questo tipo di analisi, molti dei quali probabilmente non sono in grado di gestire il tipo di dati enormi che avere :(

Ad esempio, forse gli eventi di tipo A di solito non si verificano dove si verificano eventi di tipo B. O forse in alcune aree, ci sono principalmente eventi di tipo C.

Questi sono due tipi di domande piuttosto differenti: la seconda chiede il posizionamento di un tipo di segno / evento. Le parole d'ordine da cercare in questo contesto sono la stima dell'intensità di fe o la stima della funzione K se sei interessato a scoprire modelli di raggruppamento (eventi di un tipo tendono a raggrupparsi) o repulsione (eventi di un tipo tendono a essere separati). Il primo chiede la correlazione tra diversi tipi di eventi. Questo di solito viene misurato con le funzioni di correlazione dei segni.

Penso che il sottocampionamento dei dati per ottenere una dimensione dei dati più trattabile sia pericoloso (vedi commento alla risposta di @ hamner), ma forse potresti aggregare i tuoi dati: dividi la finestra di osservazione in un numero gestibile di celle di uguali dimensioni e tabula il conteggio degli eventi in ogni. Ogni cella viene quindi descritta dalla posizione del suo centro e da un vettore di 10 conteggi per i tuoi 10 tipi di segni. Dovresti essere in grado di utilizzare i metodi standard per i processi a punti marcati su questo processo aggregato.


Conosco i processi marcati e alcuni strumenti teorici correlati, avrei dovuto pensarci prima. Grazie mille per le parole chiave, hai forse qualche suggerimento per queste? Grazie anche per l'idea di aggregazione, ne ho avuta una simile, proverò a farlo.
Wookai,

2
Peter Diggle ha scritto una "geostatistica basata su modelli". Ha anche un'analisi dei dati sul crimine del Lancashire in questa pagina: lancs.ac.uk/staff/diggle/MADE che potrebbe darti alcune buone idee.
fabians

1

Innanzitutto, la dimensione del set di dati. Consiglio di prelevare piccoli campioni trattabili del set di dati (scegliendo casualmente N punti dati o scegliendo casualmente diversi rettangoli relativamente piccoli nel piano XY e prendendo tutti i punti che rientrano in quel piano) e perfezionando le tecniche di analisi su questo sottoinsieme. Una volta che hai un'idea della forma di analisi che funziona, puoi applicarla a porzioni più grandi del set di dati.

La PCA viene utilizzata principalmente come tecnica di riduzione della dimensionalità; il tuo set di dati ha solo tre dimensioni (una delle quali è categorica), quindi dubito che si applicherebbe qui.

Prova a lavorare con Matlab o R per visualizzare i punti che stai analizzando nel piano XY (o la loro densità relativa se lavori con l'intero set di dati), sia per i singoli tipi che per tutti i tipi combinati, e vedi quali schemi emergono visivamente. Ciò può aiutare a guidare un'analisi più rigorosa.


1
Se questo è appropriato dipende da ciò che già conosci o presumi sul tuo processo di generazione dei dati. Il sottocampionamento dei dati per regione (ovvero prendere tutti i punti in una finestra più piccola predefinita) può essere pericoloso se non omogeneo (perché l'uso di una finestra diversa avrebbe modificato le tue conclusioni). Il campionamento dei dati senza tener conto del posizionamento per un set di addestramento ha l'effetto di "assottigliare" il processo osservato e invalidare le conclusioni che potresti voler trarre, ad esempio, la gamma di correlazioni tra i segni o i processi di raggruppamento / repulsione.
fabians

Sì, so che PCA è per la riduzione della dimensionalità, ecco perché ero confuso su come potevo applicarlo al mio set di dati. L'idea era di vedere se ogni tipo di evento avesse la sua "direzione" o se alcuni "condividessero la stessa direzione". Ma suppongo che stavo semplicemente pensando alla correlazione.
Wookai,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.