Quali strumenti ci sono per il mascheramento dei dati? (MySQL, Linux) [chiuso]


14

Sto cercando strumenti di mascheramento dei dati (idealmente gratuiti, open source). Ne esiste qualcuno del genere?

Nota: questa domanda correlata riguarda gli strumenti per la generazione di dati di test, ma in questa domanda sono più interessato a iniziare con dati reali e mascherarli per l'uso in test senza perdere relazioni speciali che lo rendono interessante ai fini del test. I dati generati vanno bene per alcuni scopi di test, ma i dati del mondo reale porteranno problemi che non hai mai pensato. Strumento per generare grandi set di dati di dati di test

Risposte:


9

Sarei molto sorpreso se esistesse uno strumento generico per questo: come "conoscere" quali sono i dati sensibili e cosa no? Ad esempio, dovrebbe esaminare tutti i tuoi dati e riconoscere tutti i possibili formati di numero di carta di credito, numero di telefono, codice postale, indirizzo e-mail e qualsiasi altro dato sia considerato sensibile. Dovrebbe anche essere intelligente riguardo al tuo schema - ad esempio, dovrebbe riscrivere tutti gli indirizzi email dei clienti su "nobody@company.com" - o qualsiasi parte del tuo database, applicazioni o altri strumenti presuppone che l'indirizzo email del cliente (o SSN o comunque) è unico? O hai qualche parte dell'applicazione che controlla i numeri di carta di credito, che si spezzerebbe se li ripristinassi tutti a 0000 0000 0000 0000? Oppure il tuo sistema di telefonia presume che un cliente "

Fondamentalmente, configurare qualsiasi strumento per farlo sarà tanto o più lavoro che scrivere semplicemente il tuo script, usando la tua conoscenza dell'applicazione. Sul mio sito, abbiamo semplicemente reso noto che chiunque aggiunge una colonna con tali dati negli aggiornamenti aggiorna lo script per anonimizzarlo allo stesso tempo, dopo un controllo iniziale per trovare tutte quelle colonne e scrivere la versione 1.


1
So che ci sono strumenti commerciali, dato che in un posto di lavoro precedente c'era un'iniziativa (fallita) per usarne uno per il nostro dbs Oracle. (Non ero coinvolto in quel progetto, quindi non conosco i motivi del fallimento. Sospetto che impostare uno strumento di mascheramento dei dati per un db legacy sarà comunque un compito noioso, come suggerisci).
testerab

3
Oh, mi aspetto che qualcuno ti venderà qualcosa che pretende di essere questo, ma come ho detto, configurarlo sarà più lavoro che scrivere il tuo in SQL perché dovrai prima imparare il loro hokey DSL!
Gaius,

5

Se il tuo database è minuscolo, ha un modello di dati semplice ed è ben compreso dagli attuali DBA - gli script "potrebbero" essere la risposta. Tuttavia, lo sforzo (e il costo) di analizzare e mascherare manualmente i database tipici può sfuggire di mano piuttosto rapidamente quando cambiano i requisiti, si aggiungono funzionalità e gli sviluppatori / DBA vanno e vengono.

Sebbene non sia a conoscenza di prodotti di mascheramento dei dati open source, ci sono offerte commerciali disponibili ragionevolmente complete, relativamente facili da usare e che possono essere sorprendentemente ragionevoli in termini di costi. Molti di questi includono funzionalità di individuazione immediata per identificare e classificare dati sensibili (SSN, carte di credito, numeri di telefono) e funzionalità per mantenere i checksum, la formattazione dell'indirizzo e-mail, il raggruppamento dei dati, ecc. In modo che i dati mascherati sembra reale.

Ma non devi prendere la mia parola (certamente di parte) per questo. Chiedi agli analisti del settore come Gartner o Forrester che hanno un certo numero di rapporti imparziali disponibili sul mascheramento che potrebbero aiutare.

Spero che questi commenti ti incoraggino a prendere in considerazione l'esplorazione di prodotti commerciali e lo sviluppo di script interni. Alla fine della giornata, la cosa più importante è proteggere i dati sensibili che molti di noi vedono giorno dopo giorno che non abbiamo davvero bisogno di vedere per fare il nostro lavoro - mettendo noi e le persone il cui personale dati che riteniamo a rischio.

Kevin Hillier, Specialista senior integrazione, Camouflage Software Inc.


1
Mi rendo conto che non vuoi imbatterti nella vendita del tuo prodotto, ma sarebbe utile se potessi nominare un paio di prodotti commerciali o indicare qualche consiglio specifico?
testerab

1
Capisco che lavori per questa azienda e che probabilmente vorresti consigliare il tuo prodotto, e non sono contrario, ma a causa del sig sembra un annuncio pubblicitario schietto, piuttosto che "So di cosa sto parlando , perché è quello che faccio "... Sono più convinto di" usare blah blah blah (Informativa completa: lavoro su questo prodotto) perché blah blah blah "e non mettere il tuo nome alla fine. Se vogliamo i tuoi dati personali, possiamo fare clic sul tuo profee e leggere quel sig e fare clic sul collegamento lì.
jcolebrand

5

Non ho mai visto un oggetto del genere, ma avendo lavorato con alcuni insiemi di dati sensibili ai miei tempi, la cosa principale che deve essere confusa sono le identità delle persone o le informazioni di identificazione personale. Questo dovrebbe apparire solo in alcuni punti del database.

L'operazione di mascheramento dovrebbe conservare le proprietà statistiche e le relazioni dei dati e probabilmente deve conservare i codici di riferimento effettivi (o almeno una sorta di meccanismo di traduzione controllata) in modo da poterli riconciliare con i dati effettivi.

Questo genere di cose può essere ottenuto ottenendo un elenco distinto dei nomi nei campi e sostituendolo con qualcosa come FirstNameXXXX (dove XXXX è un numero progressivo, uno per ogni valore distinto). I numeri di carta di credito e le informazioni simili che potrebbero essere utilizzate per il furto di identità sono abbastanza probabili essere un no-no in un ambiente di sviluppo, ma hai bisogno di quelli reali solo se stai testando i sistemi di elaborazione dei pagamenti - in genere il fornitore ti fornirà codici speciali per account fittizi.

Non è particolarmente difficile scrivere procedure di anonimizzazione di questo tipo, ma dovrai concordare esattamente cosa deve essere reso anonimo con l'azienda. Se necessario, scorrere il campo del database per campo. Chiedere sì / no ti darà falsi positivi che non vuoi. Chiedi al rappresentante aziendale di spiegare perché o le conseguenze o le implicazioni normative della mancata anonimizzazione di determinati dati.


3

Ho avuto lo stesso compito poche settimane fa. abbiamo valutato alcuni sistemi software, ma la maggior parte di essi è solo per un solo tipo di base di dati, ad esempio Oracle, e sono spesso molto complicati da usare ... quindi non è la cosa più bella da valutare. Ci sono volute settimane.

Abbiamo deciso di acquistare la versione professionale della suite di mascheramento dei dati poiché era la più semplice da utilizzare. Ha anche fantastiche possibilità di mascherare i dati, ad esempio è possibile modificare gli indirizzi e-mail in quelli reali, ad esempio ... @ siemens.com in mike.miller@seimsen.com.

Puoi provarlo gratuitamente per circa 500 (?) Record per quanto mi ricordo.

Ecco il link http://www.data-masking-tool.com/


1
Solo un punto dati: al momento della stesura, lo strumento di mascheramento dei dati funziona a meno di $ 1.000.
Michael Teper,

2

Il mio modo di farlo:

  1. Crea un nuovo database con la sola visualizzazione e seleziona i diritti per gli utenti
  2. Crea viste su tabelle che dovrebbero essere visualizzabili in altri database
  3. Maschera le colonne che devono essere mascherate da: repeat ('*', char_length ( column to be masked))

2

Ho indicato per la prima volta questo percorso diversi anni fa e da allora ho creato una consulenza basata su questa pratica.

Suppongo che lo scopo sia quello di creare dati di test da utilizzare in ambienti di test in cui il personale che accede ai dati non disponga dei diritti per visualizzare le informazioni di produzione.

La prima cosa da stabilire è esattamente quali elementi di dati è necessario mascherare e per farlo è meglio iniziare con uno strumento di rilevazione dei dati come Schema Spy (Open source) e per questa attività sarà necessario il driver jdbc pertinente, ma esso è un passaggio molto utile nel processo.

Talend Open Studio è uno dei migliori strumenti che ho usato negli ultimi anni per eseguire alcune delle funzioni ETL e sarai anche in grado di fare alcune pratiche di mascheramento di base sostituendo i valori con uno casuale o. Cerca / sostituisci - per mantenere la coerenza - usando il componente mappa.

Ma se stai cercando un vero strumento di mascheramento dei dati non ho trovato uno strumento open source adatto. Se hai un budget molto moderato per gli strumenti, suggerirei Data Masker, ma dovrai fare un po 'di importazione ed esportazione tramite MS SQL o Oracle poiché si connette solo tramite quei protocolli.

Dai un'occhiata a http://www.datakitchen.com.au/2012-08-14-15-04-20/data-masking/data-masker-toolset per informazioni su mascheramento dei dati, metodologia di mascheramento dei dati, individuazione dei dati e dati dei test gestione. C'è anche un utile blog su http://www.dataobfuscation.com.au


1

C'è uno strumento disponibile sul mercato da Informatica che si chiama Informatica ILM (TDM). Questo utilizza PowerCenter come backone per ETL e maschera i dati con diverse opzioni di mascheramento disponibili. Anche se hai bisogno di un analista di dati o di una PMI in grado di capire come mascherare i dati. Lo strumento stesso non fornisce informazioni su quali campi devono essere mascherati, tuttavia esiste un algoritmo interno o una procedura o un processo per identificare campi di dati sensibili come Nome, colonne ID con numero, Carta di credito, Numero SSN, Numero di conto ecc.


Inoltre, Informatica ILM TDM consente di generare sottoinsiemi di dati. In questo modo è possibile creare un sottoinsieme dei dati e mascherarli oppure mascherare tutti i dati, quindi inserirli secondo le esigenze aziendali.
Awadhesh Yona,

1

Quest'anno ho l'opportunità di lavorare con IBM Optim che sostiene di fare ciò che viene richiesto. Non è gratuito, ma funziona bene.


1

Quello che mi piace di più è IRI FieldShield ( https://www.iri.com/products/fieldshield ) in termini di versatilità (la maggior parte delle funzioni di mascheramento dei dati), velocità (motore CoSort per lo spostamento dei dati all'interno) ed ergonomia (semplici lavori 4GL supportato nella sua GUI Eclipse con tonnellate di connessioni DB e file). Dal punto di vista del prezzo è circa la metà di IBM e Informatica, sebbene sia disponibile anche in una suite di integrazione dei dati più ampia per la trasformazione, la migrazione e la BI di grandi dimensioni. Quindi non è nemmeno gratuito, ma utilizza alcuni open source (l'IDE e può utilizzare OpenSSL e GPG) e gli script vengono eseguiti su Windows, Linux e altri tipi di Unix.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.