Modifica III: ho trovato un esempio straordinariamente stupendo di visualizzazione di dati quantitativi multivariabili e ho dovuto aggiungerlo. Lo troverai sotto la voce "Modifica III (Premi Nobel)".
Modifica II: c'è stato un piccolo malinteso e ho modificato per cercare di chiarire come interpreto l'uso previsto dei dati. Ho sostituito due immagini e ho aggiunto una sezione "Vuoi patatine con quello?"
La grafica rivela i dati.
Edward Tufte:
Il disordine e la confusione sono fallimenti del design, non attributi delle informazioni. Clutter richiede una soluzione di progettazione, non una riduzione del contenuto. Molto spesso, più intensi sono i dettagli, maggiore è la chiarezza e la comprensione, perché significato e ragionamento sono implacabilmente CONTESTUALI. Meno è noioso.
Perché visualizziamo i dati?
- Strumenti per pensare
- Per mostrare il risultato di un intenso vedere
- Per capire un problema, per prendere una decisione
- Mostra confronti, mostra causalità
- Fornire ragioni per credere
Come?
- mostra i dati
- indurre lo spettatore a pensare alla sostanza piuttosto che alla metodologia, alla progettazione grafica, alla tecnologia di produzione grafica o qualcos'altro
- evitare di distorcere ciò che i dati hanno da dire
- presenta molti numeri in un piccolo spazio
- rendere coerenti set di dati di grandi dimensioni
- incoraggiare l'occhio a confrontare diversi dati
- rivelare i dati a vari livelli di dettaglio, da un'ampia panoramica alla struttura fine.
- servire uno scopo ragionevolmente chiaro: descrizione, esplorazione, tabulazione o decorazione.
- essere strettamente integrato con le descrizioni statistiche e verbali di un set di dati.
Alcune definizioni:
Dati:
è generalmente considerato come "roba che viene ordinata nei database". Ovviamente possono trattarsi di numeri, immagini, suoni, video, ecc. I dati sono quelli che possono essere raccolti, spesso quantitativi. Nella sua forma più grezza è difficile da digerire; solo muri di cifre. Sai; la matrice . In generale, non disponiamo di enormi database costituiti da zeri, per tutte le cose che non abbiamo, anche se a volte le cose che non abbiamo sono quelle più informative . Quindi, per vedere quello che non abbiamo, abbiamo bisogno di visualizzare ciò che facciamo abbiamo.
Informazione:
è ciò che puoi estrarre dai dati . Visualizzando i dati in qualche modo, possiamo raccogliere informazioni . Uno degli esempi che uso spesso è che se ti fornisco un elenco dei paesi del mondo e ti dico che ne mancano due, è altamente improbabile che li troverai in base a tale elenco. Tuttavia, se lo visualizzo colorando tutti i paesi che ho su una mappa, vedrai immediatamente che ho omesso la Repubblica Centrafricana e la Nuova Caledonia. Questo significa "ridurre il rumore" e raccontare una storia nel modo più efficace possibile.
Infografiche e visualizzazioni dei dati:
Esito a chiamare il tuo esempio di infografica. So che questo è spesso visto come sinonimi di visualizzazione dei dati, progettazione delle informazioni o architettura delle informazioni, ma non sono d'accordo. Le infografiche - per me - sono una serie di grafici, diagrammi e illustrazioni che potrebbero contenere una serie di affermazioni distorte su come leggere i dati. È meno obiettivo, più incline a saltare i dati che non sono "di interesse" del creatore: sei guidato verso una conclusione che qualcuno ha predefinito. Hanno un valore di intrattenimento e spesso hanno un uso schiacciante di illustrazioni che toglie un po 'di attenzione ai dati. Va bene, ma penso che dovremmo differenziare un po '.
Esempi
Big data:
Tieni presente che i big data non sono gli stessi di quelli complessi. Molti dati possono essere tutti uguali, come questa mappa di LinkedIn: i dati di base sono gli stessi, ma ci sono filtri (con tag). Esistono due variabili: geografia e una sorta di tag che definisce le persone in professioni / interessi / relazioni. Insana quantità di dati; ma solo due variabili.
Multivariable:
Ecco un esempio di visualizzazione multivariabile di dati. Questa è la carta di Charles Minard del 1869 che mostra il numero di uomini nell'esercito russo della campagna di Napoleone del 1812, i loro movimenti, nonché la temperatura che incontrarono sulla via del ritorno.
Grande versione qui.
Ci vuole un po 'di tempo per decifrare il codice, ma quando lo fai è splendido. Le variabili coperte sono:
- dimensione dell'esercito (numero di vivi / morti)
- posizione geografica
- direzione (est - ovest)
- temperatura
- ora (date)
- causalità (morto in battaglie e di freddo)
Questa è una quantità incredibile di informazioni in una semplice mappa a due colori. La parte geografica è stilizzata per dare spazio alle altre variabili, ma non abbiamo problemi a ottenerla.
Eccone uno più complicato. Sarà molto più facile da leggere se hai familiarità con visualizzazioni evolutive di base, cladogrammi, filogenesi e principi di biogeografia. Tieni presente che è fatto per le persone che hanno familiarità con questo, quindi è un grafico scientifico specialistico. Ecco cosa mostra: un'immagine fillogeografica dei lignaggi di rane velenose dal Sud America. Le mappe a sinistra mostrano le principali regioni biogeografiche mentre cambiano nel tempo e l'immagine a destra mostra i lignaggi delle rane nel contesto delle loro origini biogeografiche. (Di Santos JC, Coloma LA, Summers K, Caldwell JP, Ree R, e altri. [CC-BY-SA-2.5 (www.creativecommons.org/licenses/by-sa/2.5)], tramite Wikimedia Commons). Quando si "decifra il codice" è selvaggiamente, incredibilmente informativo.
Piccoli multipli, sparkline:
Non posso sottolinearlo abbastanza: non sottovalutare mai il valore di ripetere le informazioni o dividerle in visualizzazioni identiche separate. Finché è ragionevolmente facile confrontare un grafico con un altro, questo va perfettamente bene. Siamo macchine per trovare modelli. Questo è spesso indicato come piccoli multipli. Abbiamo pochi problemi ad analizzare queste immagini abbastanza rapidamente e stipare tutto in un unico grande grafico è spesso inutile quando dieci piccole funzioneranno ancora meglio:
Un altro:
E uno che utilizza una grafica diversa ma ripetitiva:
Sparkline è un termine coniato da Edward Tufte e sviluppato anche in una
libreria javascript pienamente funzionante e completamente personalizzabile. Sono fondamentalmente minuscoli grafici che possono essere inseriti nel testo, come parte del testo e non come oggetto "esterno". Ecco come appare il default:
Modifica III (premi Nobel)
Ho dovuto solo aggiungere questa visualizzazione dei dati che ho trovato, è semplicemente troppo buona: mostra i premi Nobel. Quale università, quale facoltà, materia, anno, età, città natale, se condivisa, livello di laurea. Bella prova davvero. Questi sono tutti dati quantificabili. Più qui
I tuoi dati
Tutte le domande poste da @Javi sono estremamente importanti.
Quello che stai cercando di fare è creare uno strumento visivo per pensare. Per fare ciò, è necessario estrarre la migliore qualità del rapporto segnale-rumore. Ciò di cui stai lottando è come correlare i dati con variabili diverse, alle informazioni . Ecco una domanda: cosa deve essere approssimativamente giusto e cosa deve essere esattamente giusto? Qual è lo scopo?
Presumo che tu voglia visualizzare i dati senza troppa distorsione: vuoi che il lettore trovi delle correlazioni, se ci sono delle correlazioni. Il tuo obiettivo non è di dire alla gente che gli hamburger fanno male a loro o che le donne mangiano meno hamburger degli uomini, ma di lasciarli "vedere", se questo è ciò che i dati contengono (immagina se quelle tre persone fossero una famiglia. oscilla un po 'la nostra vista sull'intero grafico del consumo di hamburger).
Il tuo set di dati è così piccolo che potresti semplicemente mettere tutto in una tabella e andrebbe bene. Ma ovviamente si tratta dell'idea generale:
Un piccolo dettaglio: il tempo (età) tende ad essere qualcosa che vediamo come orizzontale da sinistra a destra (linee temporali). Pesa qualcosa che è su-giù, quindi cambiare la tua x - y sarebbe una buona idea.
1. Quali sono le entità uniche e fisse?
2. quali sono le variabili (eh ..) variabili?
- Peso (kg)
- Età (anni)
- Numero di hamburger (intero)
- Tipo di hamburger (intero)
Nota: i tuoi dati sono costituiti interamente da unità. Contabili, quantificabili ciascuno su una scala mentale separata. Chilo, età, peso e numeri. E in database-speak, i loro nomi sono le chiavi. Quando inizi a realizzare visualizzazioni spazio-tempo, diventa un vero mal di testa. Immagina di aggiungere il luogo di nascita, la casa attuale ecc.
Gli unici due qui che hanno una correlazione è il numero di hamburger e se è una combinazione. Tutte le altre variabili sono indipendenti e solo una è fissa (nome). Ad un certo punto, con grandi set di dati, anche i nomi diventano poco interessanti e vengono sostituiti da dati demografici, età, sesso o simili.
Con quel piccolo set di dati, potresti ottenere tutto in un grafico, ad esempio in questo modo:
Oppure puoi modificare l'altezza e il contenuto del fumetto:
Nota personale: penso che questo sia il migliore dei due, perché xey contiene proprietà "fisiche" di un essere umano. La variabile tra le bolle qui è il numero di hamburger.
Puoi anche aggiungere grafici a torta oltre al grafico, o anche solo grafici a torta. Personalmente avrei avuto entrambi, come detto su piccoli multipli:
Vuoi le patatine con quello?
La mia ipotesi era che volevamo anche sapere il rapporto tra hamburger e pasto. Ogni pasto contiene un hamburger. Non tutti i pasti sono combinati.
- vogliamo solo sapere se una persona a volte mangia combomeal?
- o vogliamo sapere quanti dei pasti di hamburger sono anche combomeal?
Se 1., farebbe un booleano applicato al nome / chiave / ID.
Jane a volte mangia combomeals? Vero falso.
Se 2., potremmo applicare un valore booleano ad ogni pasto:
1 cheeseburger, combomeal = true
1 cheeseburger, combomeal = true
1 cheeseburger, combomeal = falso
1 cheeseburger, combomeal = falso
1 cheeseburger, combomeal = falso
1 cheeseburger, combomeal = falso
1 cheeseburger, combomeal = falso
1 beefburger, combomeal = true
1 beefburger, combomeal = true
1 beefburger, combomeal = falso
È molto noioso, quindi possiamo scomporlo in:
Jane mangia 10 hamburger. Di questi, tre sono combo ("vuoi patatine con quello?").
Uno dei combomeals è un menu di hamburger.
Due dei combomeal sono menu di cheeseburger.
Il resto sono hamburger singoli. 5 formaggi, due manzo.
Questo diagramma a pioli era un tentativo di visualizzarlo. In questa versione ho mantenuto le sezioni della torta per renderle più chiare. Il fatto è che non sarebbe un passo avanti iniziare ad applicare set di dati di grandi dimensioni e%:
Ma penso che il modo migliore sia ripensare.
Un altro modo di vederlo è quello di farlo davvero molto semplice. Qui è più facile vedere quali fasce d'età, quali fasce di peso e tutti i dati che non "possiedi" possono dirci. I dati che hai non sono legati allo spazio, sono solo unità (kg, anni, numeri + chiave / ID / nome):
(Modifica: uovo sul mio viso: ho sostituito queste immagini con altre più corrette, per quanto riguarda "tutti i pasti sono hamburger, non tutti i pasti sono combinati")
Sarebbe abbastanza facile espandersi con più persone:
O, ancora meglio, se si confrontano le fasce di età di 10, 20 e 30 anni, è possibile creare una visualizzazione statistica piuttosto semplice da leggere:
..E solo per essere il più chiaro possibile; ecco un esempio di questo modo di pensare. Questo grafico mostra i sopravvissuti al Titanic, il rapporto tra equipaggio, classe, uomini, donne.
Ci saranno molte altre soluzioni, questi sono solo alcuni pensieri.
Potrei andare avanti all'infinito, ma ora ho esaurito me stesso e probabilmente tutti gli altri.
Strumenti con cui giocare:
Gephi
Gapminder Guarda questa
fenomenale presentazione TED di Hans Rosling - adoro quel ragazzo
Grafici di Google
somvis
Raphaël
MIT Exhibit (precedentemente chiamato Similie)
d3
Highcharts
Ulteriori letture:
PJ Onori; In difesa del duro
Edward Tufte: bella prova
Edward Tufte: Immaginare informazioni
Edward Tufte: la visualizzazione visiva di informazioni quantitative
Spiegazioni visive: immagini e quantità, prove e narrativa
Male, Alan., 2007 Illustrazione una prospettiva teorica e contestuale Losanna, Svizzera; New York, NY: AVA Academia
Isles, C. & Roberts, R., 1997. Nella luce visibile, fotografia e classificazione in arte, scienza e quotidianità, Museum of modern art Oxford.
Card, SK, Mackinlay, J. & Shneiderman, B. eds., 1999. Letture nella visualizzazione delle informazioni: utilizzo di Vision to Think 1st ed., Morgan Kaufmann.
Grafton, A. & Rosenberg, D., 2010. Cartografie del tempo: una storia della cronologia, Princeton Architectural Press.
Lima, M., 2011. Visual Complexity: Mapping Patterns of Information, Princeton Architectural Press.
Bounford, T., 2000. Diagrammi digitali: come progettare e presentare informazioni statistiche in modo efficace 0 ed., Watson-Guptill.
Steele, J. & Iliinsky, N. eds., 2010. Bella visualizzazione: guardare i dati attraverso gli occhi degli esperti 1 ° ed., O'Reilly Media.
Gleick, J., 2011. L'informazione: una storia, una teoria, un diluvio, il Pantheon