In una domanda precedente ho chiesto informazioni sugli strumenti per la modifica dei file CSV .
Gavin si è collegato a un commento su R Help di Duncan Murdoch suggerendo che il formato di interscambio di dati è un modo più affidabile per archiviare i dati rispetto a CSV.
Per alcune applicazioni è necessario un sistema di gestione di database dedicato. Tuttavia, per i progetti di analisi dei dati su piccola scala sembra più adatto qualcosa di più leggero.
Considerare i seguenti criteri per la valutazione di un formato di file:
- affidabile : i dati inseriti dovrebbero rimanere fedeli a quanto inserito; i dati dovrebbero essere aperti in modo coerente in diversi software;
- semplice : sarebbe bello se il formato del file fosse di facile comprensione e idealmente leggibile con un semplice editor di testo; dovrebbe essere facile scrivere un semplice programma per leggere e scrivere il formato.
- aperto : il formato dovrebbe essere aperto
- interoperabile : il formato del file dovrebbe essere supportato da molti sistemi
Trovo che i formati di valori separati da tabulazione e virgola non riescano sul criterio di affidabilità. Anche se suppongo di poter incolpare i programmi di importazione ed esportazione piuttosto che il formato del file. Mi ritrovo spesso a dover apportare piccole modifiche alle opzioni
read.table
per evitare che uno strano personaggio interrompa il caricamento del frame di dati.
Domande
- Quale formato di file soddisfa meglio queste esigenze?
- Il formato di interscambio di dati è un'alternativa migliore? o ha i suoi problemi?
- C'è qualche altro formato preferibile?
- Sto valutando ingiustamente TSV e CSV? Esiste un semplice insieme di suggerimenti per lavorare con tali file che rendono il formato del file più affidabile?
write.DIF()
quindi è un po 'una strada a senso unico, temo.