Set di dati disponibili pubblicamente


168

Uno dei problemi comuni nella scienza dei dati è la raccolta di dati da varie fonti in un formato in qualche modo pulito (semi-strutturato) e la combinazione di metriche da varie fonti per effettuare un'analisi di livello superiore. Osservando lo sforzo degli altri, in particolare altre domande su questo sito, sembra che molte persone in questo campo stiano svolgendo un lavoro un po 'ripetitivo. Ad esempio, l'analisi di tweet, post di Facebook, articoli di Wikipedia ecc. Fa parte di molti problemi relativi ai big data.

Alcuni di questi set di dati sono accessibili utilizzando le API pubbliche fornite dal sito del provider, ma di solito mancano alcune informazioni o metriche preziose da queste API e tutti devono ripetere le stesse analisi. Ad esempio, sebbene gli utenti del clustering possano dipendere da diversi casi d'uso e selezione di funzionalità, ma avere un clustering di base di utenti Twitter / Facebook può essere utile in molte applicazioni Big Data, che non è né fornito dall'API né disponibile pubblicamente in set di dati indipendenti .

Esiste un sito di hosting di set di dati di indice o pubblicamente disponibile contenente set di dati preziosi che possono essere riutilizzati per risolvere altri problemi relativi ai big data? Intendo qualcosa come GitHub (o un gruppo di siti / set di dati pubblici o almeno un elenco completo) per la scienza dei dati. In caso contrario, quali sono i motivi per non avere una piattaforma di questo tipo per la scienza dei dati? Il valore commerciale dei dati, è necessario aggiornare frequentemente set di dati, ...? Non possiamo avere un modello open source per la condivisione di set di dati ideati per i data scientist?


18
Questa domanda potrebbe essere più appropriato sulla dedicato opendata.SE . Detto questo, incrocio le dita per dat , che aspira a diventare un "Git for data".
ojdo,

2
@ojdo Grazie, non ho mai sentito parlare di opendata.SE prima, ho anche trovato questa domanda interessante (e molto simile) lì.
Amir Ali Akbari,


Non ho trovato buoni set di dati completi gratuiti per le tipiche applicazioni di Business Intelligence. Il set di dati demo di Microsoft Contoso BI per l'industria al dettaglio dal download ufficiale del Microsoft Download Center funziona con alcuni prodotti Microsoft (vedi AndyGett su SharePoint e altri software aziendali ), ma non vedo alcun dump sql o csv semplice di esso, né alcuna informazione sulla licenza .
nealmcb,

1
Hai aderito a Open Data Stack Exchange? opendata.stackexchange.com
sss4r

Risposte:


88

Esiste, infatti, un elenco molto ragionevole di set di dati disponibili al pubblico, supportati da diverse aziende / fonti.

Alcuni di questi sono di seguito:

Ora, due considerazioni sulla tua domanda. Il primo riguarda le politiche di condivisione del database. Per esperienza personale, ci sono alcuni database che non possono essere resi pubblici, sia per il contenimento delle restrizioni sulla privacy (come per alcune informazioni sui social network) sia per le informazioni governative (come i database dei sistemi sanitari).

Un altro punto riguarda l'uso / l'applicazione del set di dati. Sebbene alcune basi possano essere rielaborate per soddisfare le esigenze dell'applicazione, sarebbe utile disporre di una buona organizzazione dei set di dati in base allo scopo. La tassonomia dovrebbe comprendere l'analisi dei grafici sociali, il mining di elementi, la classificazione e molte altre aree di ricerca che potrebbero esserci.


64

37

Esistono molti set di dati disponibili apertamente, uno che molte persone spesso trascurano è data.gov . Come accennato in precedenza, Freebase è eccezionale, così come tutti gli esempi pubblicati da @Rubens




25

Per i dati relativi alle serie temporali, in particolare, Quandl è una risorsa eccellente, una directory facilmente sfogliabile di (principalmente) serie storiche pulite.

Una delle loro caratteristiche più interessanti sono i prezzi delle azioni a dati aperti, ovvero i dati finanziari che possono essere modificati in stile wiki e non sono gravati dalle licenze.


20

Enigma è un repository di set di dati disponibili al pubblico. Il suo piano gratuito offre la ricerca di dati pubblici, con 10k chiamate API al mese. Non tutti i database pubblici sono elencati, ma l'elenco è sufficiente per i casi comuni.

L'ho usato per la ricerca accademica e mi ha fatto risparmiare un sacco di tempo.


Un'altra interessante fonte di dati è il progetto @unitedstates , contenente dati e strumenti per raccoglierli, sugli Stati Uniti (membri del Congresso, forme geografiche ...).


18

Vorrei sottolineare il censimento dei dati aperti . È un'iniziativa della Open Knowledge Foundation basata sui contributi di sostenitori di dati aperti ed esperti in tutto il mondo.

Il valore del censimento dei dati aperti è uno sforzo aperto, guidato dalla comunità e sistematico per raccogliere e aggiornare il database di set di dati aperti a livello globale sul paese e, in alcuni casi, come gli Stati Uniti, a livello di città .

Inoltre, offre l'opportunità di confrontare diversi paesi e città in aree di interesse selezionate.


18

C'è anche un'altra risorsa fornita da The Guardian, il British Daily sul loro sito web. I set di dati pubblicati da Guardian Datablog sono tutti ospitati. Set di dati relativi ai conti dei club della Premier League di calcio, dati sull'inflazione e sul PIL del Regno Unito, dati sui premi Grammy ecc. I set di dati sono disponibili all'indirizzo

Qualche risorsa in più. Alcuni set di dati sono in formato R o esistono dei comandi R per importare direttamente i dati in R.


17

Ricerca Google personalizzata

Puoi utilizzare la Ricerca Google personalizzata per set di dati:

Ricerca personalizzata di Google: set di dati

Include 230 fonti e meta-fonti di set di dati, inclusi tutti quelli menzionati in questa domanda. Sentiti libero di escludere .gov e qualsiasi altro sito Web dai risultati aggiungendo "-.gov" o "-site.com" alla riga di ricerca. Altri operatori di ricerca di Google funzionano.

Non esitate a contattarmi se avete idee su quali siti Web aggiungere.

IOGDS

Il seguente servizio classifica più di 1.000.000 di set di dati pubblici:

IOGDS: ricerca di set di dati di governo internazionale aperto


Quali sono i parametri per il link di ricerca personalizzato che hai fornito? Cerca in un elenco di siti Web, parole chiave, ecc.?
Amir Ali Akbari il

@AmirAliAkbari Cerca tra fonti come Data.gov, Quandl e altri grandi magazzini di dati.
Anton Tarasenko,

16

Risposta in ritardo, ma ecco un elenco eclettico di oltre 100 set di dati interessanti

Il post sul blog è divertente e facile da leggere (non ho affiliazioni). Vale la pena scansionare e raschiare alcuni dall'alto:

  • Ultime parole di ogni detenuto del Texas eseguite dal 1984

  • 10.000 immagini annotate di gatti

  • 2,2 milioni di partite di scacchi





14

Sono nuovo di questo forum. Rispondendo in ritardo a questa domanda. Ho gestito (sono un co-fondatore di) un catalogo di portali di dati disponibili al pubblico. Ci sono oltre 1000 portali ora elencati e coperti a livello internazionale, federale, statale, municipale e accademico in tutto il mondo.

http://www.opengeocode.org/opendata/


14

Sono sorpreso che uno non l'abbia menzionato, poiché sembra abbastanza ovvio: http://www.kaggle.com ha costantemente set di dati nuovi e molto interessanti. Le informazioni sono considerate una risorsa, quindi spesso le aziende non vogliono rilasciare tali dati (oltre a problemi di privacy). Kaggle ti fornisce i dati e spera che tu possa risolvere i problemi aziendali in cambio.


14

1
Potete per favore fornirci alcune informazioni su entrambi i set di dati / collegamenti? Ciò faciliterà effettivamente l'onere di coloro che cercano tipi specifici di set di dati. Dai un'occhiata agli altri post per vedere che tipo di informazioni mancano i tuoi riferimenti.
Rubens,

11

Come hai detto, l'API è la parte difficile, non i dati. Quandl sembra risolvere questo problema fornendo oltre 10 milioni di set di dati disponibili al pubblico in un'unica API RESTful. Se la programmazione non è la soluzione migliore, esiste uno strumento gratuito per semplificare il caricamento dei dati in Excel. Inoltre, se si fa godere di programmazione, ci sono diverse librerie native in R, Python, Java e altro .





9

Un'altra fonte di dati che non ho visto elencato è The GDELT Project . Dal sito:

Il progetto GDELT monitora le notizie del mondo sulla trasmissione, stampa e web da quasi ogni angolo di ogni paese in oltre 100 lingue e identifica persone, luoghi, organizzazioni, conteggi, temi, fonti ed eventi che guidano la nostra società globale ogni secondo di ogni giorno, creando una piattaforma aperta gratuita per l'informatica su tutto il mondo.


8

Questo subreddit elenca molti set di dati noti

Set di dati Reddit

Ci sono molte richieste di set di dati su quel subreddit, molte delle quali hanno ricevuto risposta.


6

Ho creato un repository github per questo. I set di dati non sono grandi, ma sono esempi minimi pensati per esercitarsi ed esplorare tecniche di modellazione predittiva che possono quindi essere estese a grandi set di dati.

Bibbia sui problemi di apprendimento automatico (MLPB)

La cosa interessante / unica di questo repository è che ogni problema è taggato con tag come [multi-class], [dati non bilanciati], [regressione], ecc. Che facilita la ricerca di determinati tipi di problemi / set di dati.



6

Oltre a tutti questi set di dati, se sei interessato a dati relativi all'India. Il sito pubblico ufficiale del governo indiano è

Fornisce set di dati provenienti da diversi dipartimenti del governo indiano che possono essere ben utilizzati per l'analisi dei Big Data e l'apprendimento automatico.



4

Carichiamo solo il pacchetto MASS in R accediamo a più frame di dati o set di dati.

i pacchetti install.packages ("MASS") richiedono ("MASS")


3

3 set di dati da https://www.jc-bingo.com/about

  • visitor-interest.csv Interessi aggregati dei visitatori compilati in base a registri di accesso Web di 1 settimana. Include l'indirizzo IP del visitatore, la stringa dell'agente utente, il paese del visitatore, le lingue e gli argomenti della pagina a cui si accede. 19.926 record, 2.9 Mb.
  • user-agents.csv Agenti utente visitatori reali ordinati per popolarità. 4.826 documenti, 716 Kb.
  • bots.csv Indirizzi IP robot e stringhe agente utente estratti dai registri di accesso al web. 1.293 documenti, 122 Kb.

3

Ovviamente, esiste un ampio set di database pubblici.

Uno non ancora menzionato, è della FAO (Organizzazione delle Nazioni Unite per l'alimentazione e l'agricoltura), accessibile da:

http://www.fao.org/faostat/

Contiene dati sulla produzione alimentare per i paesi di tutto il mondo.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.