Set di dati disponibili pubblicamente

168

Uno dei problemi comuni nella scienza dei dati è la raccolta di dati da varie fonti in un formato in qualche modo pulito (semi-strutturato) e la combinazione di metriche da varie fonti per effettuare un'analisi di livello superiore. Osservando lo sforzo degli altri, in particolare altre domande su questo sito, sembra che molte persone in questo campo stiano svolgendo un lavoro un po 'ripetitivo. Ad esempio, l'analisi di tweet, post di Facebook, articoli di Wikipedia ecc. Fa parte di molti problemi relativi ai big data.

Alcuni di questi set di dati sono accessibili utilizzando le API pubbliche fornite dal sito del provider, ma di solito mancano alcune informazioni o metriche preziose da queste API e tutti devono ripetere le stesse analisi. Ad esempio, sebbene gli utenti del clustering possano dipendere da diversi casi d'uso e selezione di funzionalità, ma avere un clustering di base di utenti Twitter / Facebook può essere utile in molte applicazioni Big Data, che non è né fornito dall'API né disponibile pubblicamente in set di dati indipendenti .

Esiste un sito di hosting di set di dati di indice o pubblicamente disponibile contenente set di dati preziosi che possono essere riutilizzati per risolvere altri problemi relativi ai big data? Intendo qualcosa come GitHub (o un gruppo di siti / set di dati pubblici o almeno un elenco completo) per la scienza dei dati. In caso contrario, quali sono i motivi per non avere una piattaforma di questo tipo per la scienza dei dati? Il valore commerciale dei dati, è necessario aggiornare frequentemente set di dati, ...? Non possiamo avere un modello open source per la condivisione di set di dati ideati per i data scientist?

open-source dataset

— Amir Ali Akbari
fonte

18

Questa domanda potrebbe essere più appropriato sulla dedicato opendata.SE . Detto questo, incrocio le dita per dat , che aspira a diventare un "Git for data".

— ojdo,

2

@ojdo Grazie, non ho mai sentito parlare di opendata.SE prima, ho anche trovato questa domanda interessante (e molto simile) lì.

— Amir Ali Akbari,

2

Vedi quora.com/Where-can-I-find-large-datasets-open-to-the-public .

— Piotr Migdal,

Non ho trovato buoni set di dati completi gratuiti per le tipiche applicazioni di Business Intelligence. Il set di dati demo di Microsoft Contoso BI per l'industria al dettaglio dal download ufficiale del Microsoft Download Center funziona con alcuni prodotti Microsoft (vedi AndyGett su SharePoint e altri software aziendali ), ma non vedo alcun dump sql o csv semplice di esso, né alcuna informazione sulla licenza .

— nealmcb,

1

Hai aderito a Open Data Stack Exchange? opendata.stackexchange.com

— sss4r

88

Esiste, infatti, un elenco molto ragionevole di set di dati disponibili al pubblico, supportati da diverse aziende / fonti.

Alcuni di questi sono di seguito:

Set di dati pubblici su Amazon WebServices ;
Repository di implementazione di mining di Itemset frequente ;
UCI Machine Learning Repository ;
KDnuggets - un grande elenco di molti repository pubblici.

Ora, due considerazioni sulla tua domanda. Il primo riguarda le politiche di condivisione del database. Per esperienza personale, ci sono alcuni database che non possono essere resi pubblici, sia per il contenimento delle restrizioni sulla privacy (come per alcune informazioni sui social network) sia per le informazioni governative (come i database dei sistemi sanitari).

Un altro punto riguarda l'uso / l'applicazione del set di dati. Sebbene alcune basi possano essere rielaborate per soddisfare le esigenze dell'applicazione, sarebbe utile disporre di una buona organizzazione dei set di dati in base allo scopo. La tassonomia dovrebbe comprendere l'analisi dei grafici sociali, il mining di elementi, la classificazione e molte altre aree di ricerca che potrebbero esserci.

— Rubens
fonte

64

Aggiornare:

Kaggle.com , una casa di moderni appassionati di scienza dei dati e machine learning :), ha aperto il proprio repository dei set di dati .

Oltre alle fonti elencate.

Alcuni set di dati di social network:

Ci sono molte fonti elencate su Stats SE:

— IharS
fonte

37

Esistono molti set di dati disponibili apertamente, uno che molte persone spesso trascurano è data.gov . Come accennato in precedenza, Freebase è eccezionale, così come tutti gli esempi pubblicati da @Rubens

— MCP_infiltrator
fonte

35

Freebase è un database gratuito guidato dalla community che comprende molti argomenti interessanti e contiene circa 2,5 miliardi di fatti in formato leggibile da una macchina. Ha anche una buona API per eseguire query di dati.

Ecco un altro elenco compilato di set di dati aperti: http://www.datapure.co/open-data-sets

— Konstantin V. Salikhov
fonte

Freebase si sta chiudendo e il suo database si sposterà presto su Wikidata .

— cynddl,

31

Sono disponibili i seguenti collegamenti

— Jakubee
fonte

25

Per i dati relativi alle serie temporali, in particolare, Quandl è una risorsa eccellente, una directory facilmente sfogliabile di (principalmente) serie storiche pulite.

Una delle loro caratteristiche più interessanti sono i prezzi delle azioni a dati aperti, ovvero i dati finanziari che possono essere modificati in stile wiki e non sono gravati dalle licenze.

— Azza-bazoo
fonte

20

Enigma è un repository di set di dati disponibili al pubblico. Il suo piano gratuito offre la ricerca di dati pubblici, con 10k chiamate API al mese. Non tutti i database pubblici sono elencati, ma l'elenco è sufficiente per i casi comuni.

L'ho usato per la ricerca accademica e mi ha fatto risparmiare un sacco di tempo.

Un'altra interessante fonte di dati è il progetto @unitedstates , contenente dati e strumenti per raccoglierli, sugli Stati Uniti (membri del Congresso, forme geografiche ...).

— cynddl
fonte

18

Vorrei sottolineare il censimento dei dati aperti . È un'iniziativa della Open Knowledge Foundation basata sui contributi di sostenitori di dati aperti ed esperti in tutto il mondo.

Il valore del censimento dei dati aperti è uno sforzo aperto, guidato dalla comunità e sistematico per raccogliere e aggiornare il database di set di dati aperti a livello globale sul paese e, in alcuni casi, come gli Stati Uniti, a livello di città .

Inoltre, offre l'opportunità di confrontare diversi paesi e città in aree di interesse selezionate.

— tomaskazemekas
fonte

18

C'è anche un'altra risorsa fornita da The Guardian, il British Daily sul loro sito web. I set di dati pubblicati da Guardian Datablog sono tutti ospitati. Set di dati relativi ai conti dei club della Premier League di calcio, dati sull'inflazione e sul PIL del Regno Unito, dati sui premi Grammy ecc. I set di dati sono disponibili all'indirizzo

http://www.theguardian.com/news/datablog/interactive/2013/jan/14/all-our-datasets-index

Qualche risorsa in più. Alcuni set di dati sono in formato R o esistono dei comandi R per importare direttamente i dati in R.

http://www.inside-r.org/howto/finding-data-internet

— Binga
fonte

17

Ricerca Google personalizzata

Puoi utilizzare la Ricerca Google personalizzata per set di dati:

Ricerca personalizzata di Google: set di dati

Include 230 fonti e meta-fonti di set di dati, inclusi tutti quelli menzionati in questa domanda. Sentiti libero di escludere .gov e qualsiasi altro sito Web dai risultati aggiungendo "-.gov" o "-site.com" alla riga di ricerca. Altri operatori di ricerca di Google funzionano.

Non esitate a contattarmi se avete idee su quali siti Web aggiungere.

IOGDS

Il seguente servizio classifica più di 1.000.000 di set di dati pubblici:

IOGDS: ricerca di set di dati di governo internazionale aperto

— Anton Tarasenko
fonte

Quali sono i parametri per il link di ricerca personalizzato che hai fornito? Cerca in un elenco di siti Web, parole chiave, ecc.?

— Amir Ali Akbari il

@AmirAliAkbari Cerca tra fonti come Data.gov, Quandl e altri grandi magazzini di dati.

— Anton Tarasenko,

16

Risposta in ritardo, ma ecco un elenco eclettico di oltre 100 set di dati interessanti

Il post sul blog è divertente e facile da leggere (non ho affiliazioni). Vale la pena scansionare e raschiare alcuni dall'alto:

Ultime parole di ogni detenuto del Texas eseguite dal 1984
10.000 immagini annotate di gatti
2,2 milioni di partite di scacchi

— philshem
fonte

15

Ho trovato questo link in Data Science Central con un elenco di set di dati gratuiti: set di big data disponibili gratuitamente

— lafdez
fonte

15

Conoscevi i benchmark PUMA e i download dei set di dati? https://sites.google.com/site/farazahmad/pumadatasets

Include quanto segue:

TeraSort
Wikipedia
Voce di elenco
Self-Join
Liste di adiacenza
Film-Database
Classificato-Inverted-Index

— algarecu
fonte

15

Il governo del Regno Unito fornisce un'eccellente fonte di dati non personali raccolti in tutti i dipartimenti governativi: http://data.gov.uk

— Federer
fonte

14

Sono nuovo di questo forum. Rispondendo in ritardo a questa domanda. Ho gestito (sono un co-fondatore di) un catalogo di portali di dati disponibili al pubblico. Ci sono oltre 1000 portali ora elencati e coperti a livello internazionale, federale, statale, municipale e accademico in tutto il mondo.

http://www.opengeocode.org/opendata/

— Andrew - OpenGeoCode
fonte

14

Sono sorpreso che uno non l'abbia menzionato, poiché sembra abbastanza ovvio: http://www.kaggle.com ha costantemente set di dati nuovi e molto interessanti. Le informazioni sono considerate una risorsa, quindi spesso le aziende non vogliono rilasciare tali dati (oltre a problemi di privacy). Kaggle ti fornisce i dati e spera che tu possa risolvere i problemi aziendali in cambio.

— ariete
fonte

14

Set di dati

Torrent accademici
quora
hadoopilluminated.com
data.gov
quandl
freebase.com
usgovxml.com
enigma.com
datahub.io
aws.amazon.com/datasets
databib.org
datacite.org
quandl.com
figshare.com
Database scaricabili di GeoLite Legacy
Risposta di Big Dataset di Quora
Set di Big Data pubblici
Portale di dati di Houston
Kaggle Fonti di dati
Un profondo catalogo di variazioni genetiche umane
Un database curato dalla comunità di persone, luoghi e cose noti
Dati pubblici di Google
Dati della Banca mondiale
Dati taxi di New York
Open Data Philly Connettere le persone con i dati per Philadelphia
Network Repository Un repository di dati interattivo con oltre 600+ reti in oltre 20 raccolte; da social network, grafici web, reti biologiche, reti tecnologiche e di comunicazione su larga scala, ecc.
Un elenco di fonti utili Un post sul blog include molti database di set di dati

Set di dati Da awesome-datascience

— chenrui333
fonte

1

Potete per favore fornirci alcune informazioni su entrambi i set di dati / collegamenti? Ciò faciliterà effettivamente l'onere di coloro che cercano tipi specifici di set di dati. Dai un'occhiata agli altri post per vedere che tipo di informazioni mancano i tuoi riferimenti.

— Rubens,

11

Come hai detto, l'API è la parte difficile, non i dati. Quandl sembra risolvere questo problema fornendo oltre 10 milioni di set di dati disponibili al pubblico in un'unica API RESTful. Se la programmazione non è la soluzione migliore, esiste uno strumento gratuito per semplificare il caricamento dei dati in Excel. Inoltre, se si fa godere di programmazione, ci sono diverse librerie native in R, Python, Java e altro .

— Brian Risk
fonte

11

Per aggiungere a un elenco forse senza fine:

come menzionato da cyndd, c'è Wikidata ,

e per conoscenza strutturata curata, Wolfram Alpha .

— image_doctor
fonte

11

Mi sono imbattuto in questa raccolta su Github. Anche la collezione è classificata.

https://github.com/caesar0301/awesome-public-datasets

E per la parte riguardante

Non può un modello open source per la condivisione di set di dati ideato per i data scientist?

puoi consultare la guida del gruppo Leek alla condivisione dei dati

— Shagun Sodhani
fonte

10

Non tutti i dati governativi sono elencati su data.gov - Sunlight Foundation ha messo insieme una serie di fogli di calcolo a febbraio che descrivono serie di dati disponibili.

— Steve Kallestad
fonte

9

Un'altra fonte di dati che non ho visto elencato è The GDELT Project . Dal sito:

Il progetto GDELT monitora le notizie del mondo sulla trasmissione, stampa e web da quasi ogni angolo di ogni paese in oltre 100 lingue e identifica persone, luoghi, organizzazioni, conteggi, temi, fonti ed eventi che guidano la nostra società globale ogni secondo di ogni giorno, creando una piattaforma aperta gratuita per l'informatica su tutto il mondo.

— dvdnglnd
fonte

8

Questo subreddit elenca molti set di dati noti

Set di dati Reddit

Ci sono molte richieste di set di dati su quel subreddit, molte delle quali hanno ricevuto risposta.

— Qualcuno
fonte

6

Ho creato un repository github per questo. I set di dati non sono grandi, ma sono esempi minimi pensati per esercitarsi ed esplorare tecniche di modellazione predittiva che possono quindi essere estese a grandi set di dati.

Bibbia sui problemi di apprendimento automatico (MLPB)

La cosa interessante / unica di questo repository è che ogni problema è taggato con tag come [multi-class], [dati non bilanciati], [regressione], ecc. Che facilita la ricerca di determinati tipi di problemi / set di dati.

— Ben
fonte

6

Eurostats http://ec.europa.eu/eurostat e la Banca centrale europea https://www.ecb.europa.eu/stats/html/index.en.html forniscono una grande varietà di set di dati che uso abbastanza spesso nei miei progetti di lavoro.

— Juha
fonte

6

Oltre a tutti questi set di dati, se sei interessato a dati relativi all'India. Il sito pubblico ufficiale del governo indiano è

https://data.gov.in/

Fornisce set di dati provenienti da diversi dipartimenti del governo indiano che possono essere ben utilizzati per l'analisi dei Big Data e l'apprendimento automatico.

— Gaurav
fonte

4

Yahoo ha appena rilasciato un enorme set di dati per la comunità di ricerca. Divertirsi!

— Kasra Manshaei
fonte

4

Carichiamo solo il pacchetto MASS in R accediamo a più frame di dati o set di dati.

i pacchetti install.packages ("MASS") richiedono ("MASS")

— dileep balineni
fonte

3

3 set di dati da https://www.jc-bingo.com/about

visitor-interest.csv Interessi aggregati dei visitatori compilati in base a registri di accesso Web di 1 settimana. Include l'indirizzo IP del visitatore, la stringa dell'agente utente, il paese del visitatore, le lingue e gli argomenti della pagina a cui si accede. 19.926 record, 2.9 Mb.
user-agents.csv Agenti utente visitatori reali ordinati per popolarità. 4.826 documenti, 716 Kb.
bots.csv Indirizzi IP robot e stringhe agente utente estratti dai registri di accesso al web. 1.293 documenti, 122 Kb.

— Yuri
fonte

3

Ovviamente, esiste un ampio set di database pubblici.

Uno non ancora menzionato, è della FAO (Organizzazione delle Nazioni Unite per l'alimentazione e l'agricoltura), accessibile da:

http://www.fao.org/faostat/

Contiene dati sulla produzione alimentare per i paesi di tutto il mondo.

— setempler
fonte