Software di anonimizzazione dei dati


13

Qualcuno è a conoscenza di un buon software di anonimizzazione dei dati? O forse un pacchetto per R che rende l'anonimizzazione dei dati? Ovviamente non mi aspetto un anonimato irrefrenabile, voglio solo renderlo difficile.


6
Quali sono i tuoi dati e cosa vuoi fare con i dati anonimi?
Peter Smit,

Risposte:



8

Attenzione: attenzione che può essere molto difficile rendere anonimi i dati in un modo che impedisce la reidentificazione (disanonimizzazione), senza perdere gran parte del valore dei dati. Questa non è una situazione in cui puoi semplicemente lanciare un software senza pensarci. Proteggere l'anonimato delle persone richiede un attento pensiero. Vedi, ad esempio, questo documento per una più attenta esposizione del perché questo non è banale.

Un esempio di storia cautelativa è la sfida di Netflix, in cui un set di dati apparentemente anonimizzato era in realtà collegato all'identità degli utenti di Netflix - o il rilascio di record di ricerca AOL anonimizzati, molti dei quali (i ricercatori hanno scoperto) potrebbero ancora essere legati a individui attraverso analisi più sofisticate. Un altro esempio è del Massachusetts, dove una commissione di assicurazione sanitaria ha rilasciato dati su tutti i dipendenti statali, dopo averli resi anonimi rimuovendo nomi, indirizzi, SSN, ecc. Tuttavia, un ricercatore sulla privacy ha scoperto che era ancora possibile identificare nuovamente le personee, come dimostrazione, ha mostrato come identificare le cartelle cliniche del governatore. In seguito ha dimostrato, ad esempio, che la maggior parte delle persone può essere identificata in modo univoco solo dal loro codice postale (o tratto del censimento), data di nascita e sesso. Erano storie di persone che diligentemente anonimavano i dati; pensavano di aver fatto un buon lavoro di anonimizzazione e non si rendevano conto di quanto fosse complicato questo problema. Queste storie di avvertimento dovrebbero farti mettere in pausa.

Per questi motivi, ti scoraggio dal tentativo di anonimizzare il tuo set di dati da solo, se non hai alcuna esperienza in questo settore.

Importante: le tecniche necessarie per rendere anonimi i dati probabilmente dipenderanno molto dal tipo di dati che hai e dal dominio dell'applicazione in cui stai lavorando. Sfortunatamente, non hai fornito queste informazioni. Di conseguenza, è quasi impossibile fornirti buoni consigli su come rendere anonimo il tuo set di dati.

Immagino che possa essere allettante vedere questa risposta come inutile, perché invece di dire "sii felice, non preoccuparti, lancia questo magico software ai tuoi dati e non devi pensare", sto dicendo " aspetta, è più complicato di quanto sembri a prima vista, fai attenzione ". Mi rendo conto che questo messaggio potrebbe non essere molto popolare, ma penso che questo sia un messaggio che la gente deve ascoltare.



3

Un approccio sarebbe quello di utilizzare i filtri Bloom. Controllare il sito Web del progetto SAFELINK per i programmi in Java e Python. Il metodo di spiegazione della carta è qui .

Esiste anche un approccio interessante all'anonimizzazione delle stringhe nel contesto del collegamento dei record utilizzando n-grammi sviluppato da ANU Data Mining Group . Il documento con descrizione e codice Python di esempio è disponibile qui .

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.