Ci sono cose di base che puoi fare con qualsiasi set di dati:
- Convalida valori (tolleranza lunghezza stringa, tipo di dati, maschere di formattazione, presenza campo richiesta, ecc.)
- Correttezza dell'intervallo (i dati apparentemente corretti rientrano negli intervalli di valori previsti)
- Elaborazione preliminare (Se provo ad analizzare questi dati, posso eseguire le basi senza incorrere in errori)
- Rapporti preliminari (eseguire un rapporto su un set di dati e assicurarsi che superi un test di integrità)
- Definire null vs. empty vs. zero vs. False per ogni data colonna di dati
- Identificazione di dati fuori posto (valori numerici drammaticamente diversi dagli altri valori in un set di dati, valori di stringa che potrebbero apparire errati, ecc.)
- Eliminazione o correzione di dati ovviamente errati
Comprendere i dati per identificare gli errori è un gioco con la palla completamente diverso ed è molto importante.
Ad esempio, puoi avere una regola che dice che un numero seriale deve essere presente in un determinato set di dati e che il numero seriale deve essere alfanumerico con una lunghezza massima della stringa di 255 e una lunghezza minima della stringa di 5.
Guardando i dati, potresti trovare un particolare numero di serie che indica che "PLEASE ENTER SERIAL"
è perfettamente valido, ma sbagliato.
È un po 'ovvio, ma supponiamo che tu stia elaborando i dati di borsa e tu avessi una fascia di prezzo per 1000 azioni che era sotto un dollaro. Molte persone non saprebbero che un prezzo delle azioni così basso non è valido su alcuni mercati e perfettamente valido su altri. Hai bisogno di conoscenza dei tuoi dati per capire se ciò che vedi è problematico o meno.
Nel mondo reale, non sempre hai il lusso di comprendere intimamente i tuoi dati.
Il modo in cui evito i problemi è facendo leva sulle persone intorno a me. Per piccoli insiemi di dati, posso chiedere a qualcuno di rivedere i dati nella loro interezza. Per quelli di grandi dimensioni, è più appropriato estrarre una serie di campioni casuali e chiedere a qualcuno di effettuare un controllo di integrità sui dati.
Inoltre, è fondamentale mettere in discussione la fonte dei dati e quanto bene si può fidare di quella fonte di dati. Spesso ho più fonti di dati in conflitto e creiamo regole per determinare la "fonte di verità". A volte un set di dati ha grandi dati in un dato aspetto, ma altri set di dati sono più forti in altre aree.
I dati inseriti manualmente sono di solito ciò di cui sono più scettico, ma in alcuni casi sono più forti di qualsiasi cosa possa essere acquisita tramite l'automazione.