Individuazione di campioni di dati disponibili gratuitamente


98

Ho lavorato su un nuovo metodo per analizzare e analizzare set di dati per identificare e isolare sottogruppi di una popolazione senza conoscere in anticipo le caratteristiche di alcun sottogruppo. Mentre il metodo funziona abbastanza bene con campioni di dati artificiali (ovvero set di dati creati appositamente allo scopo di identificare e separare sottoinsiemi della popolazione), mi piacerebbe provare a testarlo con dati in tempo reale.

Quello che sto cercando è una fonte di dati liberamente disponibile (cioè non riservata, non proprietaria). Preferibilmente uno contenente distribuzioni bimodali o multimodali o essendo ovviamente costituito da più sottoinsiemi che non possono essere facilmente separati mediante mezzi tradizionali. Dove andrei a trovare tali informazioni?



4
Ti potrebbe piacere ottenere getthedata.org un sito di domande e risposte dedicato alla ricerca di set di dati
Jeromy Anglim,

Risposte:



46


17

La Banca Mondiale offre molti dati interessanti ed è stata recentemente molto attiva nello sviluppo di buone API per questo.

Inoltre, il progetto commugrate ha un elenco interessante disponibile.

Per i dati relativi alla salute negli Stati Uniti, vai al magazzino degli indicatori sanitari .

Il blog di Daniel Lemire indica alcuni esempi interessanti (principalmente su misura per la ricerca sulla DB), tra cui il censimento canadese del 1880 e i resoconti delle nuvole sinottiche .

E per oggi (03/04/2012) sono anche disponibili per il download i registri del censimento degli Stati Uniti del 1940 .


2
La Banca Mondiale sta facendo il possibile con dati e mappe aperti, per Stata e R.
P.

13

Gapminder ha un numero (430 all'ultima occhiata) di set di dati, che potrebbero essere utili o meno.



10

Un buon posto dove guardare è la Biblioteca di dati e storie della Carnegie Mellon University o DASL , che contiene file di dati che "illustrano l'uso di metodi statistici di base ... Un buon esempio può rendere vivida e pertinente una lezione su un particolare metodo statistico. DASL è progettato per aiutare gli insegnanti a individuare e identificare i file di dati per l'insegnamento. Speriamo che DASL funga anche da archivio per i set di dati della letteratura statistica. "


9

Avviare R e digitare data(). Questo mostrerà tutti i set di dati nel percorso di ricerca. Molti set di dati aggiuntivi sono disponibili nei pacchetti di componenti aggiuntivi. Ad esempio, ci sono alcuni interessanti set di dati di scienze sociali nel mondo reale nel AERpacchetto.




5

La rete Stack Exchange ora ha un nuovo sito, Open Data (in beta dal 5 marzo 2015), dedicato ai dati. Si descrive come:

Open Data Stack Exchange è un sito di domande e risposte per sviluppatori e ricercatori interessati ai dati aperti. È costruito e gestito da te come parte della rete Stack Exchange di siti di domande e risposte. Con il tuo aiuto, stiamo lavorando insieme per creare una libreria di risposte dettagliate a ogni domanda sui dati aperti.

"Dati aperti" si riferisce a set di dati che sono "liberamente disponibili a tutti da utilizzare e ripubblicare come desiderano, senza restrizioni di copyright, brevetti o altri meccanismi di controllo" ( Wikipedia ). Tuttavia, il sito sembra suscettibile di richieste di set di dati chiusi .







2

I set di dati dal libro fondamentale A handbook of small data setssono disponibili qui .


2

Alla ricerca di un set di dati appropriato per le mie esigenze, mi sono appena imbattuto in due siti pertinenti a questa discussione.

Datacite.org che si definisce come ...

Siamo un'organizzazione internazionale che mira a:

  • stabilire un accesso più facile ai dati di ricerca
  • aumentare l'accettazione dei dati di ricerca come contributi legittimi nella documentazione accademica e a
  • supportare l'archiviazione dei dati per consentire la verifica e il riutilizzo dei risultati per futuri studi.

DataBib.org che si definisce come ...

Databib è uno strumento per aiutare le persone a identificare e individuare repository online di dati di ricerca. Utenti e bibliografi creano e curano i record che descrivono i repository di dati su cui gli utenti possono effettuare ricerche.

Ho pensato che varrebbe la pena aggiungerlo all'elenco qui per gli altri.

Ora per trovare qualcosa nei suoi collegamenti che si adatta alle mie esigenze!


2

Consiglio vivamente di dare un'occhiata a quandl.com . Questo è un sogno dei programmatori di dati. Fornisce un'API molto semplice per accedere a qualsiasi degli oltre 10 milioni di diverse sedi di dati. Stai cercando dati bi-modiali o multi-variabile, quindi suggerirei di verificare i vari set di dati sulla popolazione, ad esempio questo grafico della popolazione mondiale contiene i paesi e i territori dei sottocomponenti che vanno al totale.


1
Alcuni dati relativi ai quandl sono gratuiti, altri "Premium", ad esempio, costano $$. Anche il mio sogno API include nrows di serie temporali, ncols e grafici online (voglio un pony).
denis,


1

Utilizzo nel tempo

Un grande foglio di calcolo Excel disponibile per il download contenente punti dati per tutte le attività online, con dati demografici degli utenti, nel tempo. Si prega di leggere il foglio dei suggerimenti (di seguito) prima di scaricare o utilizzare questo foglio di calcolo.

http://pewinternet.org/Trend-Data/Usage-Over-Time.aspx





Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.