Uno dei problemi comuni nella scienza dei dati è la raccolta di dati da varie fonti in un formato in qualche modo pulito (semi-strutturato) e la combinazione di metriche da varie fonti per effettuare un'analisi di livello superiore. Osservando lo sforzo degli altri, in particolare altre domande su questo sito, sembra che molte persone in questo campo stiano svolgendo un lavoro un po 'ripetitivo. Ad esempio, l'analisi di tweet, post di Facebook, articoli di Wikipedia ecc. Fa parte di molti problemi relativi ai big data.
Alcuni di questi set di dati sono accessibili utilizzando le API pubbliche fornite dal sito del provider, ma di solito mancano alcune informazioni o metriche preziose da queste API e tutti devono ripetere le stesse analisi. Ad esempio, sebbene gli utenti del clustering possano dipendere da diversi casi d'uso e selezione di funzionalità, ma avere un clustering di base di utenti Twitter / Facebook può essere utile in molte applicazioni Big Data, che non è né fornito dall'API né disponibile pubblicamente in set di dati indipendenti .
Esiste un sito di hosting di set di dati di indice o pubblicamente disponibile contenente set di dati preziosi che possono essere riutilizzati per risolvere altri problemi relativi ai big data? Intendo qualcosa come GitHub (o un gruppo di siti / set di dati pubblici o almeno un elenco completo) per la scienza dei dati. In caso contrario, quali sono i motivi per non avere una piattaforma di questo tipo per la scienza dei dati? Il valore commerciale dei dati, è necessario aggiornare frequentemente set di dati, ...? Non possiamo avere un modello open source per la condivisione di set di dati ideati per i data scientist?