Le coordinate GPS (latitudine e longitudine) possono essere utilizzate come funzioni in un modello lineare?


10

Ho set di dati che contengono, tra le molte funzioni, le coordinate GPS (latitudine e longitudine). Vorrei utilizzare questi set di dati per esplorare problemi quali: (1) il calcolo dell'ETA per guidare tra i punti iniziale e finale; e (2) stimare l'entità del crimine per un punto specifico.

Vorrei usare un modello di regressione lineare. Tuttavia, posso usare queste coordinate GPS direttamente in un modello lineare?

La latitudine e la longitudine non hanno una proprietà ordinale , come ad esempio l'età di una persona. Ad esempio, i due punti (40.805996, -96.681473) e (41.226682, -95.986587) non sembrano avere un ordinamento significativo. Sono solo punti nello spazio. Stavo pensando di sostituirli con codici postali statunitensi categorici e quindi di fare una codifica a caldo , ma questo avrebbe comportato molte variabili.


1
Li devi usare direttamente ? Hai mai sentito parlare di strumenti di suddivisione in zone, come l'algoritmo AZP di S. Openshaw? È anche possibile delimitare manualmente le regioni di una mappa in regioni / zone separate, se l'area è relativamente coerente.
Mephy,

@Mephy: Ciò significherebbe convertire lat / long in zone, giusto? Ma poi avrei centinaia o migliaia di zone categoriche, proprio come con i codici postali. Dovrei codificarli tutti con uno di questi.
stackoverflowuser2010,

Dipende da come si tagliano le zone, ovviamente. Se scegli "sud della linea equatoriale / nord della linea equatoriale", allora sono solo due. Molti algoritmi di suddivisione in zone hanno alcuni iperparametri per definire quantità come il numero di zone o la dimensione minima della zona.
Mephy,

Ho lo stesso problema. Voglio prevedere la posizione di un popolo. Ho geohashed tutte le funzionalità di geolocalizzazione nei dati di allenamento. Successivamente, LabelDecoder viene utilizzato per trasformare la funzione di posizione categoriale. Alla fine, il risultato è terribile. C'è qualche buona idea per affrontare la previsione spaziale?
Berisfu,

Risposte:


5

Non puoi usarli direttamente, in quanto è improbabile che esista una vera relazione lineare a meno che tu non stia cercando di prevedere "quanto sia est o nord" qualcuno. Come menzionato nei commenti, è necessario convertirli in zone. Se si desidera mantenerlo davvero semplice, è possibile utilizzare un algoritmo di clustering kNN con un numero basso di potenziali cluster e quindi assegnare a ciascuna istanza una nuova funzionalità con l'ID cluster, quindi codificarlo con una sola riga.

Potresti anche voler leggere come le persone interpolano le coordinate per prevedere i valori in un'intera mappa. Il primo esempio è con le stazioni termiche, ma puoi anche immaginare che siano "zone calde" per il crimine.

( DOCS )


2

Potresti fare qualunque cosa il tuo cuore desideri, ma a meno che il tuo modello non preveda la temperatura o la differenza di tempo, non posso trovare altre variabili target che dipendono esclusivamente dalle coordinate.

Quello che probabilmente vuoi fare è utilizzare un'origine dati esterna e arricchire i tuoi dati con Paese / Codice postale / clima / altre caratteristiche geografiche che aiuteranno il tuo modello a funzionare.


0

Le coordinate GPS possono essere convertite direttamente in geohash . Geohash divide la Terra in "secchi" di dimensioni diverse in base al numero di cifre (codici Geohash brevi creano grandi aree e codici più lunghi per aree più piccole).

Un geohash è un singolo numero che può essere utilizzato come funzione in un modello.

Geohash si applica solo a tutto il mondo, i codici postali no.


L'output di un geohasher è una stringa, non un singolo numero, giusto? E se il geohash è una stringa, allora dovrei codificarlo a una sola volta, il che comporterebbe molte variabili, proprio come con un codice postale codificato a una sola.
stackoverflowuser2010,

Un geohash è un singolo numero, codificato nella base 32. Non c'è motivo di codificare 1-hot. Scegli il livello di precisione e usa il numero rilevante di cifre.
Brian Spiering,

Ho visto solo rappresentazioni di stringhe di geohash. Tuttavia, anche se i geohash erano rappresentati come un int lungo, c'è qualche relazione lineare tra loro per l'uso in un modello lineare? Questo è esattamente il punto della mia domanda originale.
stackoverflowuser2010,

La relazione tra geohashes è leggermente complessa - en.wikipedia.org/wiki/Geohash#Design
Brian Spiering

1
Esistono molti modi di ingegnerizzazione delle funzioni oltre alla codifica lineare e a caldo. Ad esempio, il trucco del kernel o la trasformazione di Helmert.
Brian Spiering,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.