Quando lavoro su progetti di analisi dei dati, spesso conservo i dati in file di dati delimitati da virgole o da tabulazioni (CSV, TSV). Mentre i dati spesso appartengono a un sistema di gestione di database dedicato. Per molte delle mie applicazioni, questo sarebbe esagerare.
Posso modificare i file CSV e TSV in Excel (o presumibilmente un altro programma di foglio di calcolo). Questo ha dei vantaggi:
- i fogli di calcolo facilitano l'immissione dei dati
Ci sono anche diversi problemi:
- Lavorare con i file CSV e TSV porta a una vasta gamma di messaggi di avviso su varie funzioni perse e su come verrà salvato solo il foglio attivo e così via. Pertanto, è fastidioso se si desidera solo aprire il file e apportare una piccola modifica.
- Fa molte conversioni "apparentemente intelligenti". Ad esempio, se inserisci 12/3, penserà di voler inserire una data. AGGIORNAMENTO: avrei dovuto menzionare che l'esempio della data è solo uno dei tanti esempi; la maggior parte dei problemi sembra essere correlata a una conversione inappropriata. In particolare, i campi di testo che sembrano numeri o date causano problemi.
In alternativa, potrei lavorare direttamente con il file di testo in un editor di testo standard. Questo assicura che ciò che inserisco sia ciò che viene registrato. Tuttavia è un modo molto imbarazzante per inserire dati (le colonne non si allineano; è difficile inserire i dati semplicemente in più celle; ecc.).
Domanda
- Qual è una buona strategia per lavorare con file di dati CSV o TSV? vale a dire, quale strategia semplifica l'inserimento e la manipolazione dei dati garantendo al contempo che ciò che si inserisce sia effettivamente interpretato correttamente?