Conosco qualcuno che sta lavorando a un progetto che prevede l'inserimento di file di dati indipendentemente dalle colonne o dai tipi di dati. L'attività consiste nel prendere un file con un numero qualsiasi di colonne e vari tipi di dati e generare statistiche riassuntive sui dati numerici.
Tuttavia, non è sicuro di come assegnare in modo dinamico i tipi di dati per determinati dati basati su numeri. Per esempio:
CITY
Albuquerque
Boston
Chicago
Non si tratta ovviamente di dati numerici e verranno archiviati come testo. Tuttavia,
ZIP
80221
60653
25525
non sono chiaramente indicati come categorici. Il suo software assegnerebbe il codice postale come statistiche numeriche e di riepilogo di output, il che non ha senso per quel tipo di dati.
Un paio di idee che avevamo erano:
- Se una colonna è composta da numeri interi, etichettala come categoriale. Questo chiaramente non avrebbe funzionato, ma era un'idea.
- Se una colonna ha meno di n valori univoci ed è numerica, etichettala come categorica. Questo potrebbe essere più vicino, ma potrebbero esserci ancora problemi con la caduta di dati numerici.
- Mantenere un elenco di dati numerici comuni che dovrebbero effettivamente essere categorici e confrontare le intestazioni di colonna con questo elenco per le corrispondenze. Ad esempio, qualsiasi cosa con "ZIP" al suo interno sarebbe categorica.
Il mio istinto mi dice che non c'è modo di assegnare accuratamente i dati numerici come categorici o numerici, ma speravo in un suggerimento. Qualsiasi intuizione che hai è molto apprezzata.