Set di dati per esempi di visualizzazione dei dati, insegnamento e ricerca


9

Sto cercando set di dati esistenti che possiamo utilizzare per testare diverse tecniche di datavis che stiamo studiando.

Conosco diverse risorse come quelle incluse in R (prova plot(Orange)o vedi qui ).

Ma vorrei fare un passo avanti:

  • Quali sono i migliori set di dati del mondo reale per testare uno strumento di visualizzazione?
  • Quali set di dati hai utilizzato in articoli accademici o diapositive sull'insegnamento di datavis?
  • Qual è il miglior esempio del mondo reale per mostrare i vantaggi della rappresentazione grafica?

2
Molti buoni esempi del mondo reale, con alcuni dei progetti collegati che forniscono i set di dati (ma la maggior parte no, sfortunatamente): infosthetics.com
WSkid,

1
Cerchi espressamente set di dati gratuiti ?
Fomite,

3
La visualizzazione dipende dal contesto e dal pubblico (tra le altre cose), suggerendo che "migliore" è ambiguo in questo contesto. Puoi ottenere risposte più mirate e pertinenti indicando quali "tecniche" stai cercando.
whuber

1
@whuber Techniques, sull'automatizzazione della visualizzazione. Meglio, per spiegare. Meglio, per riferimento.
robermorales,

@EpiGrad Sì, il più libero possibile.
robermorales,

Risposte:


5

Esistono numerosi database disponibili su Internet. A seconda dell'argomento, puoi ottenere diverse fonti.

Ad esempio, nell'area tematica Sviluppo umano è possibile avere origini dati su (http://hdrstats.undp.org/):

http://hdrstats.undp.org/en/tables/default.html

Per l'osservazione dei cambiamenti climatici, esiste una rete con dati climatici ad alta risoluzione su (http://www.ipcc-data.org/), ad esempio:

http://www.ipcc-data.org/obs/cru_ts2_1.html

Entrambi gli esempi contengono dati reali, utilizzati in articoli scientifici pubblicati, con una grande quantità di dati. Dati relativi al tempo e / o allo spazio. Le possibilità di visualizzazione di questi dati sono infinite.


quale dei possibili set di dati da queste splendide fonti ti piace di più? grazie
robermorales l'

1
Dipende dall'idoneità per il "gusto" della visualizzazione. Ad esempio, per esplorare / mostrare le serie temporali il Web IPCC ha abbastanza dati ed è ampiamente usato (ovviamente per analizzare i cambiamenti climatici), per mostrare i dati spaziali nel sito Web sullo sviluppo umano contiene molti dati relativi allo spazio e dati relativi a tempo.
Jose Zubcoff,

Il tuo primo collegamento è interrotto (errore DNS).
horaceT

Sfortunatamente il primo link è interrotto (5 anni dopo), ma ci sono molti Open data là fuori: kaggle.com/datasets data.okfn.org/data data.gov data.europa.eu/euodp/en/data
Jose Zubcoff,

9

Mi piace usare i set di dati Anscombe (disponibili anche in R) per mostrare l'importanza della stampa durante le regressioni. Se non si ha familiarità, si ottengono la stessa linea di regressione e la stessa diagnostica da tutti e quattro i set di dati, anche se i set stessi sembrano tutti abbastanza diversi. Puoi prendere i grafici di seguito e trasformarli in grafici residui per illustrare i problemi che potresti cercare nei residui dopo aver eseguito una regressione.

Set di dati Anscombe


Sì, sapevamo che set di dati. È un buon punto di partenza.
robermorales,

Il problema principale è che non è un set di dati del mondo reale.
robermorales,

3
@robermorales, Abbastanza giusto, ma penso che vedere la versione "pura" del problema rende più semplice la comprensione di visualizzazioni / problemi più disordinati e reali.
Charlie,


4

William S. Cleveland ha due libri pieni di grandi usi della grafica e i dati e il codice per creare i grafici in Visualizzazione dei dati sono sul suo sito Web


quale dei set di dati di Cleveland ti piace di più? grazie
robermorales l'

1
@robertomorales Penso che siano tutti ben scelti per i loro scopi. Chiunque sia interessato alla grafica statistica dovrebbe studiare attentamente Cleveland.
Peter Flom

1
I dati per la visualizzazione dei dati sono disponibili su lib.stat.cmu.edu/datasets/visualizing.data.zip Non riesco più a trovarli sul sito Web di Cleveland.
Nick Cox,

4

Forse già li conosci, ma eccoli qui:

L' apprendimento automatico UCI Repositor y ha molti, set di dati accessibili al pubblico del mondo reale.

Il governo degli Stati Uniti rende pubblici molti dei suoi set di dati su data.gov .

Se desideri alcuni dati di visualizzazione difficili, ti suggerirei di guardare un'attività di classificazione. Mi sembra che il Bag of Words impostato sull'UCI MLR abbia delle belle proprietà, ma potrei sbagliarmi (è da un po 'che non lo uso).


Grazie! Ce ne sono molti !
robermorales,

3

Eccone alcuni.

Set di dati di esempio Sci2 Tool
http://wiki.cns.iu.edu/display/SCI2TUTORIAL/2.5+Sample+Dataset Set di dati di
esempio forniti in bundle con Sci2 Tool.

Set di dati di esempio del tableau
https://public.tableau.com/s/resources?qt-overview_resources=1#qt-overview_resources Set di
dati di esempio per iniziare con Tableau.

Impressionanti set di dati pubblici
https://github.com/caesar0301/awesome-public-datasets/blob/master/README.rst
Questo elenco di origini dati pubbliche viene raccolto e riordinato da blog, risposte e risposte degli utenti. La maggior parte dei set di dati sono gratuiti, altri no.

Questo thread è piuttosto vecchio, sperando che questo bump ottenga alcuni nuovi contributi!


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.