Considerereste la geocodifica online una violazione della privacy?


21

Supponiamo che io abbia un sacco di indirizzi di persone che partecipano a un determinato studio (molto probabilmente - relativo alla salute, in cui la privacy e le considerazioni etiche sono sempre questioni importanti).

Oggi fornitori come Google o Yahoo offrono risultati decenti in termini di precisione posizionale.

La North American Association of Central Cancer Registries ( NAACCR ) elenca tali opzioni nelle guide " Best Practices Geocoding : Review of Eight Common Used Geocoding Systems " e " A Geocoding Best Practices Guide ".

Cinnamon e Schuurman (2010), ad esempio, hanno utilizzato il servizio BatchGeocode come parte del loro strumento per indagare sugli infortuni in contesti con risorse limitate.

Considerereste la geocodifica di tali indirizzi utilizzando servizi online, come Google Maps o OpenStreetMap, una violazione della privacy?

PS1 domanda eventualmente correlata .

Un recente articolo di Epidemiologia su PS2 (uno dei principali periodici di peer review sul campo) ha pubblicato brevi comunicazioni che dettagliano le istruzioni su come geocodificare usando le API di Google Maps & Places. È interessante notare che non è stata menzionata una parola su sicurezza / privacy ...


Domanda sulla portata della wiki della community?
artwork21

Risposte:


11

C'è sicuramente un'implicazione sulla privacy qui, in particolare se si lavora con piccoli lotti di dati. Chiunque stia tentando di estrarre il flusso di dati sarà in grado di ipotizzare che tutte le richieste nello stesso batch abbiano qualcosa in comune, anche se le condizioni mediche o le informazioni personali non sono divulgate via cavo.

Una tecnica migliore consiste nel raggruppare molti dati / pazienti non correlati per la geocodifica di massa.

Ad esempio - combina i tuoi dati che necessitano di geocodifica con altri ricercatori - più problemi indipendenti sono, meglio è. Randomizza l'ordine delle richieste. E una volta al giorno, elaborare in batch questa coda, tutto in una volta.

Ora diventa molto più difficile estrarre i dati, anche se un utente malintenzionato è in grado di ascoltare le richieste di geocodifica.


Interessante! Qualsiasi strumento / piattaforma che potrebbe facilitare questo processo?
Nicolas Raoul,

8

La geocodifica locale con file crittografati su un server sicuro sarebbe sicuramente lo standard di riferimento per la privacy. L'uso di Tor sarebbe la cosa migliore dopo, se fosse necessario il geocoding usando un'API remota.

Tor ti protegge facendo rimbalzare le tue comunicazioni su una rete distribuita di relè gestiti da volontari in tutto il mondo: impedisce ... ai siti che visiti di apprendere la tua posizione fisica.

Insieme all'iniezione di indirizzi casuali (come altri raccomandano qui) e usando ssl (https) per crittografare le comunicazioni ai loro endpoint (assicurati di farlo anche tu), non riesco a pensare a un modo più sicuro per geocodificare da remoto che via il Tor Project . Qualunque sia il servizio di geocodifica che stai usando non sarà mai in grado di identificare da dove provengono le richieste, e con https nessun altro lo farà. Nota: non utilizzare un servizio di geocodifica che richiede una chiave API per questo, o non sarai più anonimo. (Google non richiede più una chiave API).

Maggiori dettagli sull'uso di Tor sono nella mia risposta a una domanda correlata qui.


Grazie, non ho pensato a Tor, ma sembra una buona idea.
Radek,

Anche se si utilizza Tor, il server di geocodifica riceve comunque le informazioni dell'utente, che costituisce una violazione fondamentale della privacy. Non puoi fidarti del server di geocodifica.
Nicolas Raoul,

8

Questa è un'ottima domanda che mi è stata posta più volte da quando lavoro per una società di verifica degli indirizzi chiamata SmartyStreets.

Prima di tutto, un indirizzo postale rappresenta un singolo punto individuabile sulla mappa. Un indirizzo di per sé è intrinsecamente benigno perché non ha ulteriori informazioni. Tracciare un punto su una mappa non fa nulla. È solo quando inizi ad assegnare CONTEXT a quel punto (indirizzo) che inizia a significare qualcosa.

Con questo in mente, un indirizzo postale può rappresentare una persona, un'organizzazione, un edificio, un'auto, qualunque cosa. Una volta che inizi a raccogliere più indirizzi postali, aumenta il contesto che può essere derivato da quel raggruppamento. Le somiglianze possono essere determinate per vedere cosa hanno in comune gli indirizzi. Tuttavia, solo un raggruppamento di indirizzi in un'area simile non indica molto contesto. Posso guardare una google map e vedere tutte le case in una certa area. Questa non è una violazione della privacy a meno che non abbia accesso non autorizzato a informazioni privilegiate.

Altri punti di contesto devono essere combinati per fornire effettivamente qualsiasi tipo di dato privato. Ad esempio, un gruppo di indirizzi postali inviati a un servizio online per la verifica dell'indirizzo e / o la geocodifica non fornisce informazioni a meno che non si sappia chi ha inviato l'elenco per l'elaborazione. Una volta noto il proprietario dell'elenco, è possibile fare alcune deduzioni sull'uso previsto dell'elenco. Conoscere questo contesto aggiuntivo, come il proprietario dell'elenco e l'uso previsto, si qualificherebbe sicuramente come informazione privilegiata e può essere una fonte di violazione della privacy.

Portare l'elaborazione "in-house" in modo che nessun servizio di dati esterno sia coinvolto è un'opzione. Esclude certamente qualsiasi tipo di accesso non autorizzato a informazioni privilegiate. La verifica dell'indirizzo e la geocodifica non sono compiti per i non iniziati e richiedono certamente competenze avanzate (che significa esperienza acquisita nel tempo) al fine di elaborare elenchi molto grandi senza consumare quantità eccessive di tempo e risorse. Quindi portarlo a casa è certamente un'opzione, ma ogni azienda che dispone di informazioni sensibili sugli indirizzi ha le risorse per svolgere la propria elaborazione "sicura" degli indirizzi (incluso il geocodifica) in casa? No. (Anche se significherebbe sicuramente sicurezza del lavoro per i lettori di questo sito Web.)

Esistono modi per mantenere la privacy richiesta e continuare a utilizzare i servizi online. Un metodo sarebbe quello di creare un account, ottenere tutto testato e capito e quindi, utilizzando un indirizzo email temporaneo, impostare un nuovo account con un indirizzo di fatturazione non correlato associato a una carta di credito che non può essere ricondotta a te. L'elaborazione degli indirizzi su questo account teoricamente non darebbe alcun contesto prezioso e quindi manterrebbe la privacy delle persone nell'elenco. (Sta iniziando a sembrare il film Enemy Of The State .

Se questo sembra complesso e non necessario, sono d'accordo. Un metodo più semplice sarebbe quello di sfruttare un'API che utilizza HTTPS e POST e che non memorizza o registra nessuno dei dati elaborati. L'uso di HTTPS significa che l'unico record sarebbe un timestamp e l'indirizzo IP da cui chiami. L'URL sottostante non sarebbe noto. Ovviamente l'account che utilizzi ti ricondurrebbe MA, non è un problema perché l'utilizzo di una richiesta POST ti consente di allegare un payload (in questo caso un batch di indirizzi) e il contenuto del payload non viene registrato. Pertanto, gli indirizzi inviati non si trovano su alcun registro del server. E il fatto che la loro memoria sia cancellata tra ogni processo significa che quegli indirizzi non vengono mai archiviati o registrati e la loro trasmissione a te avviene tramite una connessione sicura.

13Mar2012 06:31 (-6) IP: 12.134.223.12 ID utente: 875564 - Qtà post: 3439942 - [Elaborato]

Chiunque guardi i registri vedrebbe solo che hai elaborato alcuni indirizzi e non avrebbero idea di quali indirizzi siano stati elaborati. Ciò soddisfa anche i più severi requisiti della politica sulla privacy. Non avrebbe senso sottolineare che questo tipo di servizio è disponibile (e super veloce ) senza menzionare dove trovarlo. È già integrato nel servizio API LiveAddress di SmartyStreets. Anche altri servizi come Cdyne, QAS e ServiceObjects possono offrire servizi simili, ma non ne ho ancora sentito parlare.


Grazie per informazioni dettagliate. HTTPS sembra decisamente un'idea ragionevole. Presumo che SmartyStreets sia limitato agli Stati Uniti?
Radek,

Sì, la verifica dell'indirizzo SmartyStreets e la geocodifica sono limitate agli indirizzi del servizio postale degli Stati Uniti.
Jeffrey,

5

Forse potresti creare un ID, dividere la tua tabella. Rimozione di informazioni personali identificabili. quindi riconnettersi alla tabella dopo il geocoding.

Sulla scia di (federated PCness) suppongo che potresti provare che una volta eseguiti i dati su un server da qualche parte, non hai mantenuto la catena di custodia.

Ho trovato un bel po 'di scrittura sull'argomento se vuoi seguire ...

Possesso e controllo della nuvola

Possesso e controllo dell'età elettronica

Libro di Google

Implicazione legale del cloud computing

Se l'applicazione della legge viene effettuata secondo la legge, il cloud computing potrebbe essere completamente escluso dai servizi governativi.


5

No, puoi geocodificare offline. Se si utilizzano geocodificatori batch online, in che modo la conversione degli indirizzi in coordinate geografiche diventa un problema di privacy? Sarebbe più un problema se il nome di tutti fosse incluso e pubblicizzato. Come Brad menziona l'indirizzo separato con un ID e lo rivincita quando gli indirizzi sono stati geocodificati. Pratica standard.


5
Sono d'accordo che puoi geocodificare offline e non dover divulgare alcuna informazione personale. Ma non sono d'accordo con il tuo suggerimento che considera solo il nome e l'ID come informazioni che dovrebbero essere mantenute private. Se si rivela l'indirizzo di casa di una persona, anche senza il suo nome, lo si è sostanzialmente identificato. Pensa a pubblicare una mappa con punti sulle case delle persone con una malattia trasmissibile altamente imbarazzante.
DavidF,

2
Come ha detto Mapperz, fintanto che le informazioni che invii sono limitate all'indirizzo, non dovrebbero esserci problemi. Non includere "HECD", o qualsiasi altra informazione sensibile, nelle informazioni che stai inviando.
jvangeld,

1
@DavidF ogni indirizzo ha coordinate geografiche - la geocodifica è automatizzata al 99,9% [calcolo] senza perdita di privacy. Se non ti piace online, non metterlo lì, usa una versione offline.
Mapperz

2
@jvangeld Penso ancora che la privacy potrebbe essere violata nella situazione online quando una terza parte può combinare l'identità dell'organizzazione che invia la richiesta di geocodice e gli indirizzi. Se il Fronte popolare per il trattamento del vampirismo presenta un geocodice batch con 100 indirizzi al suo interno, non pensi che una terza parte potrebbe ragionevolmente supporre che nelle 100 case c'erano persone che cercavano di essere curate dal loro "stile di vita alternativo"? Ovviamente, questo è un argomento piuttosto accademico, ma se vuoi davvero proteggere la privacy e l'anonimato, penso che questo sia pertinente.
DavidF,

1
L'opinione di @DavidF è molto pertinente qui: l'indirizzo di casa è considerato molto sensibile e potrebbe potenzialmente portare alla divulgazione dei partecipanti allo studio. Se ci sono 1000 richieste da un indirizzo IP di un'istituzione che studia vampirismo, si potrebbe semplicemente supporre che abbiano indirizzi di potenziali 1000 vampiri. Il mio problema qui è, il servizio di geocodifica online può essere considerato "parte sicura" in tali condizioni? Puoi essere accusato di condividere i tuoi dati con parti non autorizzate che non fanno parte dello studio? Parte che attraverso il processo di geocodifica potentemente ha avuto accesso ai dati?
Radek,

4

Il geocodifica è a basso rischio All'inizio di quest'anno abbiamo lavorato con alcuni ospedali e questa domanda è emersa. Il servizio stesso di geocodifica non era una grande preoccupazione perché abbiamo rimosso tutti i dati, tranne ID e indirizzo dai dati, utilizzato il trasferimento sicuro (https) e il TOS, il nostro geocoder interno ha specificato protezioni della privacy sufficienti a soddisfare i loro criteri.

Visualizzare posizioni anonimamente è più difficile Il bit più complicato era visualizzare mappe di dati sparsi mantenendo l'annonimato. La prima opzione richiesta dal cliente era quella di aggiungere un "fondente" casuale in ogni punto in modo tale che l'ubicazione effettiva della casa fosse oscurata. Il problema con questo approccio è che la dimensione del fondente richiesto è piuttosto grande (1/2 miglio o più) (cosa succede se qualcuno vive in una fattoria) e la tendenza degli utenti della mappa a prendere le posizioni dei punti con la precisione. Abbiamo deciso di aggregare i punti che mostrano abbastanza per essere anonimi pur avendo una mappa utile. Una norma di altri settori in cui abbiamo lavorato sembra essere che l'unità di aggregazione deve avere almeno 7-10 record.


2

Suppongo che lo stai geocodificando e non stai rendendo pubblici i risultati? In tal caso, come potrebbe il cloud essere consapevole di ciò che quei dati rappresentano?

Presumibilmente puoi anche offuscare qualsiasi dato geocodificato con dati casuali nascondendo qualsiasi modello intrinseco che potrebbe esistere.


corretto, il punto è ottenere una serie di coordinate geografiche per un determinato set di dati. tutto il resto dell'analisi sarà offline e qualsiasi cosa pubblicata ulteriormente non utilizzerà mai le informazioni a livello individuale. mi piace l'idea di offuscare set di dati!
Radek,

2

Non so se questo è nuovo da quando è stata posta la domanda, ma se qualcuno si chiedeva in api v3 di Google Maps è possibile utilizzare SSL (https). Anche la sezione sulla privacy della Guida alle migliori pratiche NAACCR tratta di questi problemi.


2

In Austria questo sarebbe sicuramente un problema di privacy.

Prima di tutto: i dati sanitari sono classificati come sensibili e non vi è dubbio che non è consentito trasferirli a terzi senza il consenso esplicito della persona correlata a tale set di dati.

Anche se è anonimizzato: è possibile geocodificare questi dati sanitari, ma è anche possibile geocodificare registri nome-indirizzo (rubrica) disponibili pubblicamente e collegare i dati sanitari a persone che vivono lì, quindi gli indirizzi sono anche classificati come personali dati.

Questo porta al risultato, che non ti sarà permesso di geocodificare questo set di dati inviandolo a una terza parte senza chiedere esplicitamente ai tuoi partecipanti.


1

Hai bisogno di un geocodice esatto o di un'area generale? Potresti essere in grado di utilizzare solo il codice postale o il codice postale parziale f


@ user1466: il geocodice esatto sarebbe sicuramente una preferenza qui.
Radek,

1

Lavoro per una società di geocodifica ( YAddress.net ) e abbiamo un gran numero di clienti con severi requisiti di privacy - industria finanziaria, sanità, diritto, ecc.

Affrontiamo i loro problemi di privacy in due modi:

  1. Elaborazione dei dati online tramite connessioni crittografate SSL (impedisce lo snooping dei dati in transito), oltre ad accordi sulla privacy da parte nostra. Questo è sufficiente per alcuni clienti, ma non per tutti.

  2. Per la massima privacy, un'opzione di implementazione del software in loco, in cui la geocodifica avviene interamente presso la sede del cliente e nessun dato viaggia mai su Internet.

Come hanno correttamente osservato gli altri commentatori, un indirizzo postale in sé è un'informazione pubblica e senza dati contestuali (come nomi dei clienti, numeri, ecc.) Non rappresenta alcuna divulgazione di nulla. Tuttavia, le aziende della vita reale operano in ambienti legali della vita reale, dove questa linea di ragionamento può o meno essere in tribunale. Se la privacy è una preoccupazione urgente, il costo aggiuntivo di una soluzione in loco potrebbe valerne la pena per evitare il rischio di potenziali complicazioni legali lungo la strada.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.