Hai bisogno di un set di dati della traiettoria GPS Benchmark?


13

Sto cercando un set di dati GPS di riferimento, disponibile gratuitamente a scopo di ricerca. Ho trovato il set di dati GeoLife GPS Trajectories di Microsoft Research ma lo trovo un po 'incompleto.

Ciò di cui ho bisogno sono i dati di attività GPS di una persona, come in tuple (latitudine, longitudine, data), tracciati per almeno diversi mesi, preferibilmente in modo continuo. Vorrei anche che le registrazioni fossero non sparse; al massimo 1 minuto tra ogni record.

Ti sarei davvero grato se mi potessi indirizzare verso un set di dati così affidabile.


2
Questo set di dati deve essere di un essere umano? (Il modo in cui hai espresso tutto finora implica sì, ma non credo sia stato esplicitamente dichiarato.)
Dan S.

Risposte:


17

Penso che la tua migliore possibilità sarà quella di rintracciarti. Se l'idea ti disturba, è per questo che non troverai tali dati pubblici da nessuna parte.



4

Non trattengo il respiro. I dati con tale precisione sarebbero un'impresa enorme e avrebbero enormi implicazioni sulla privacy (anche se solo per 30 giorni per un individuo che includerebbe 43.200 punti dati (se registrati ogni minuto), e indubbiamente identificherebbe lì la posizione di casa).

Se sei interessato a domande sostanziali sul fatto che tali dati potrebbero contenere questo consiglio non saranno di aiuto. Ma se sei interessato solo a un qualche tipo di strategia analitica per gestire tali dati enormi, dovresti essere in grado di simulare semplicemente i dati su quella scala per servire qualunque siano i tuoi scopi. Per i dati Simulare vorrei suggerire di dare un'occhiata al programma statistico R, e la spatstat e il viaggio del pacchetto, in particolare, (così come tutti i moduli spaziali in R).

Sarei scettico anche se i dati di localizzazione degli animali soddisfassero i tuoi requisiti per i punti dati a intervalli così brevi. Potrei elencare alcuni articoli che ho letto che usano i dati del telefono cellulare per stimare i modelli di attività umana, ma nessuno di quelli che ho letto si avvicinerebbe a quel tempo o misurando l'attività degli individui così frequentemente.


4

Una scelta è quella di redigere un contratto e assumere molte persone. Fornisci loro unità GPS configurate per prendere le letture fornendo i dati di cui hai bisogno, abbastanza batterie per durare il contratto e istruzioni (collegalo con questo cavo per caricare di notte, inviami via email questo file, ecc.)

Avresti sicuramente bisogno di scrivere nel contratto come limitare la distribuzione dei dati e anonimizzarli per proteggerli (magari fornendo un raggio di esclusione di circa mezzo miglio attorno ai punti che la persona indica sono privati) e potresti persino considerare l'acquisto di un'assicurazione contro le perdite. Se le tracce dell'attività della gente diventassero pubbliche, verrebbero riempite di informazioni come "Lascio per lavoro ogni mattina alle 7:00 e torno a casa ogni sera alle 19:00", e un complotto sembrerebbe un asterisco gigante centrato a casa loro dicendo "derubare questo posto tra le 8:00 e le 18:00". Puoi capire perché dovresti preoccuparti della privacy e della sicurezza.

Se ci pensi, stai chiedendo alcuni dati molto costosi. E senza un set statisticamente abbastanza grande, sarà di dubbia utilità. Pensa a come sarebbero diverse le tracce tra un operaio edile (un nuovo pendolarismo ripetitivo dopo ogni edificio completato), un corriere postale (un percorso molto ripetitivo e molto tortuoso), un impiegato (un percorso diretto per lo più ripetitivo) e un camion da rimorchio autista (nuove rotte continuamente). Lo stato socioeconomico potrebbe influire sulle tracce: redditi più bassi potrebbero seguire di più le linee di trasporto pubblico e viaggiare di meno. I genitori di bambini in età scolare potrebbero avere miglia di pendolarismo post-lavoro in media più alte. Per non parlare del ragazzo che guida le auto di Google Street View.

Nessuna di queste tracce è suscettibile di intersecare le altre in modo significativo.

È probabile che il numero di stili unici sia limitato, ma così elevato da richiedere un budget significativo da ottenere. E quello sarebbe in una sola città.

Potresti essere in grado di ottenere un insieme di dati più piccolo (più economico) se definissi meglio i tuoi obiettivi. Se stai cercando di quantificare i vari tipi di modelli, potresti campionare una vasta gamma di persone in una varietà di città. Se stai cercando di capire chi trarrebbe beneficio dal trasporto di massa, o dove posare i corridoi ferroviari dei pendolari, probabilmente stai meglio contando le auto sulle varie strade intorno all'area che stai pianificando di servire e conducendo sondaggi.


2

Sto anche cercando il tipo esatto di set di dati che stai cercando. Sfortunatamente, finora non ne ho ancora trovato uno. Nonostante i dati di GeoLife, un'altra fonte che ho trovato è CRAWDAD . Il sito ha un registro GPS dei taxi di San Francisco e anche dei pedoni di New York. Sfortunatamente, per i pedoni di New York forniscono solo coordinate relative piuttosto che lat / lon.


2

Esistono molti argomenti di ricerca in cui i dati necessari per rispondere alla domanda non sono disponibili per motivi morali e gli esperimenti che superano questi limiti possono portare a restrizioni future, come nel caso dell'esperimento Milgram . Più recentemente, AOL ha dovuto estrarre un corpus di query di ricerca a causa delle preoccupazioni sulla privacy e l'unico set di dati affidabili che abbiamo sulle abitudini delle e-mail è venuto dal processo Enron .

Quindi, sebbene sia tecnicamente possibile ottenere un set di dati di tale traiettoria, potrebbe non essere mai pratico a causa delle implicazioni sulla privacy. Come indicato in altre risposte, set di dati relativi, aggregazione su singoli individui o simulazione possono essere tutti approcci migliori per rispondere alla tua domanda, evitando al contempo il problema della privacy.



2

Le offerte di progetti PFLOW aperti :

set di dati aperto per il movimento di massa delle persone tipiche nelle aree urbane

L'area metropolitana di Tokyo è disponibile e l'area metropolitana di Chukyo sembra essere in preparazione.

I dettagli sono disponibili in una recente pubblicazione:

Takehiro Kashiyama, Yanbo Pang, Yoshihide Sekimoto, Open PFLOW: Creazione e valutazione di un set di dati aperto per il movimento di massa di persone tipiche nelle aree urbane, Ricerca sui trasporti Parte C: Emerging Technologies (2017) Volume 85, Pagine 249–267.


Il set di dati della traiettoria di T-Drive è una scoperta recente. Fornisce:

traiettorie di una settimana di 10.357 taxi. Il numero totale di punti in questo set di dati è di circa 15 milioni e la distanza totale delle traiettorie raggiunge i 9 milioni di chilometri.


Sebbene non riguardi i movimenti umani, la società Liquid Robotics mette a disposizione un set di dati interessante dalla sua sfida PacX . I dati sulla posizione e le letture dei sensori ambientali di quattro alianti robot che navigano attraverso l'Oceano Pacifico sono disponibili per il download . Maggiori informazioni sul progetto (davvero interessante) sul blog , tramite WIRED e questo talk .


Un'altra opzione per affrontare i problemi di privacy sarebbe quella di utilizzare i dati di localizzazione degli animali. Immagino che la protezione dei dati sarà meno un problema qui. Come vantaggio, potresti comunque essere in grado di testare il tuo software / i tuoi metodi con dati di movimento reali. Lo svantaggio potrebbe essere che se l'applicazione necessita di movimenti "umani specifici", potrebbero non adattarsi al tuo scopo.

Date un'occhiata a Movebank o driade siti web per verificare se alcuni dei loro dati potrebbero inserire nel vostro progetto.


Per quanto riguarda i dati dell'iPhone, menzionati da Matthew , potresti dare un'occhiata ai progetti di crowdflow e openpaths . Forse c'è un modo per ottenere somedata attraverso di loro? Aggiornamento: entrambi i collegamenti sembrano essere morti ora.


Un'altra opzione è la parte spaziale dei dati sui taxi di New York di Chris Whong . Forniscono solo posizioni di ritiro e consegna, tuttavia il volume (11 GB!) E le informazioni contestuali (tariffa, passeggeri, ecc.) Le rendono davvero interessanti ( download alternativo , maggiori informazioni sui problemi di privacy sollevati dai dati).


Il post di Urška Demšar sul suo recente articolo su "Analisi della mobilità umana da dati sui movimenti volontari e informazioni contestuali" promette:

A breve sarà inoltre disponibile un set di dati gratuito di traiettorie GPS volontarie collegate a questo documento. Rimanete sintonizzati.

( maggiori informazioni )

Aggiornamento: il documento menziona che i dati saranno disponibili su CRAWDAD menzionati da @ejel ma non li ho mai trovati lì.


Un'altra opzione potrebbe essere quella di creare un set di dati sintetico da soli . Se hai bisogno di ispirazione, guarda il recente articolo di van Dijk J (2018) Identificazione dei punti di spostamento delle attività dai dati GPS con più finestre mobili Computer, ambiente e sistemi urbani ( link ). Maggiori dettagli sono forniti nell'appendice e nel codice del documento e un set di dati di esempio è disponibile su github .


1

Tahina Expedition (Blog di Google Earth) http://www.tahinaexpedition.com/map ha navigato per gran parte dell'anno scorso ormai.

KML può essere elaborato http://maps.google.com/maps/ms?source=embed&hl=it&geocode=&ie=UTF8&t=k&msa=0&output=nl&msid=103005318482134016767.0004670ab348ba9fa7b1f [era una traccia gps ora convertita in kml]


@Mapperez - Grazie Mapperez, ma quello di cui ho bisogno è un po 'diverso. Vorrei i punti GPS registrati giorno per giorno, minuto per minuto di una persona a terra. Una persona con una routine quotidiana (in qualche modo una routine) - come si alza, va al lavoro, passa ore lì, va a fare shopping, viene a casa, ripete.
Murat,

1

Le persone forniscono tali dati a Google gratuitamente tutto il giorno. Si chiama Latitude. Forse lo condivideranno generosamente come i loro utenti lo hanno condiviso con loro.


1
Spero sicuramente che non lo faranno. Sono abbastanza sicuro che non sarebbero autorizzati a rilasciare alcun dato al livello richiesto dall'applicazione di @ Murat.
underdark
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.