Quante variabili posso rappresentare graficamente prima di perdere la chiarezza?


14

Vediamo se riesco a spiegare questa domanda di economia grafica che ho correttamente. Sono nuovo sul campo e vale la pena ricordare che si tratta di pura curiosità, e i miei esempi sono - come si sarà in grado di raccontare presto - completamente inventati.

Quante variabili posso rappresentare graficamente prima che il mio grafico perda la qualità della comunicazione? Supponiamo che il mio pubblico sia, ad esempio, i lettori dei giornali della domenica.

Supponiamo che io abbia questo set: Peso (x) / Età (y) e due individui: Jane, 10 anni, 30 kg; e Joe, 20 anni, 60 kg. La rappresentazione grafica potrebbe essere qualcosa del genere:

inserisci qui la descrizione dell'immagine inserisci qui la descrizione dell'immagine

Ora so di poter aggiungere un'altra variabile usando la dimensione dei cerchi, quindi se voglio aggiungere una rappresentazione per quanti hamburger Jane e Joe mangiano una settimana (rispettivamente 10 e 20), potrei avere qualcosa del tipo:

inserisci qui la descrizione dell'immagine inserisci qui la descrizione dell'immagine

E posso anche usare forma o colore + dimensione per aggiungere una quarta variabile, ad esempio se mangiano più cheeseburger che hamburger di manzo (la limitazione qui è che il tipo di hamburger è un booleano, con solo due possibili valori), ma comunque:

inserisci qui la descrizione dell'immagine inserisci qui la descrizione dell'immagine

E questo dove penso che inizi a diventare confuso. L'aggiunta di forme alla combo per rappresentare una quinta variabile rischierebbe la "facilità di comprensione" del grafico. Quando guardo il grafico, il mio (particolare) cervello elabora solo 2 o 3 variabili, non di più. Mangiano combo o solo hamburger, per esempio ?:

inserisci qui la descrizione dell'immagine inserisci qui la descrizione dell'immagine

Ho pensato forse a una terza dimensione, ma sarebbe semplicemente terribile. Potrei pensare a questo nel modo completamente sbagliato, e probabilmente qui mi manca qualcosa di abbastanza ovvio che non riesco a capire (per esempio, se provare a rappresentare più di 3 o 4 variabili è semplicemente sbagliato come pratica), ma indietro alle mie domande:

  • 4 (forse 5 se il grafico è molto semplice come il mio) è un numero ragionevole per le variabili massime rappresentate contemporaneamente in un grafico a due assi?

  • Esistono altri tipi di grafici che consentono più variabili senza perdere la chiarezza?

  • Esiste un buon esempio di grafico che rappresenta con successo un gran numero di variabili?

Risposte:


14

Modifica III: ho trovato un esempio straordinariamente stupendo di visualizzazione di dati quantitativi multivariabili e ho dovuto aggiungerlo. Lo troverai sotto la voce "Modifica III (Premi Nobel)".

Modifica II: c'è stato un piccolo malinteso e ho modificato per cercare di chiarire come interpreto l'uso previsto dei dati. Ho sostituito due immagini e ho aggiunto una sezione "Vuoi patatine con quello?"


La grafica rivela i dati.

Edward Tufte:

Il disordine e la confusione sono fallimenti del design, non attributi delle informazioni. Clutter richiede una soluzione di progettazione, non una riduzione del contenuto. Molto spesso, più intensi sono i dettagli, maggiore è la chiarezza e la comprensione, perché significato e ragionamento sono implacabilmente CONTESTUALI. Meno è noioso.

Perché visualizziamo i dati?

  • Strumenti per pensare
  • Per mostrare il risultato di un intenso vedere
  • Per capire un problema, per prendere una decisione
  • Mostra confronti, mostra causalità
  • Fornire ragioni per credere

Come?

  • mostra i dati
  • indurre lo spettatore a pensare alla sostanza piuttosto che alla metodologia, alla progettazione grafica, alla tecnologia di produzione grafica o qualcos'altro
  • evitare di distorcere ciò che i dati hanno da dire
  • presenta molti numeri in un piccolo spazio
  • rendere coerenti set di dati di grandi dimensioni
  • incoraggiare l'occhio a confrontare diversi dati
  • rivelare i dati a vari livelli di dettaglio, da un'ampia panoramica alla struttura fine.
  • servire uno scopo ragionevolmente chiaro: descrizione, esplorazione, tabulazione o decorazione.
  • essere strettamente integrato con le descrizioni statistiche e verbali di un set di dati.

Alcune definizioni:

Dati:

è generalmente considerato come "roba che viene ordinata nei database". Ovviamente possono trattarsi di numeri, immagini, suoni, video, ecc. I dati sono quelli che possono essere raccolti, spesso quantitativi. Nella sua forma più grezza è difficile da digerire; solo muri di cifre. Sai; la matrice . In generale, non disponiamo di enormi database costituiti da zeri, per tutte le cose che non abbiamo, anche se a volte le cose che non abbiamo sono quelle più informative . Quindi, per vedere quello che non abbiamo, abbiamo bisogno di visualizzare ciò che facciamo abbiamo.

Informazione:

è ciò che puoi estrarre dai dati . Visualizzando i dati in qualche modo, possiamo raccogliere informazioni . Uno degli esempi che uso spesso è che se ti fornisco un elenco dei paesi del mondo e ti dico che ne mancano due, è altamente improbabile che li troverai in base a tale elenco. Tuttavia, se lo visualizzo colorando tutti i paesi che ho su una mappa, vedrai immediatamente che ho omesso la Repubblica Centrafricana e la Nuova Caledonia. Questo significa "ridurre il rumore" e raccontare una storia nel modo più efficace possibile.

Infografiche e visualizzazioni dei dati:

Esito a chiamare il tuo esempio di infografica. So che questo è spesso visto come sinonimi di visualizzazione dei dati, progettazione delle informazioni o architettura delle informazioni, ma non sono d'accordo. Le infografiche - per me - sono una serie di grafici, diagrammi e illustrazioni che potrebbero contenere una serie di affermazioni distorte su come leggere i dati. È meno obiettivo, più incline a saltare i dati che non sono "di interesse" del creatore: sei guidato verso una conclusione che qualcuno ha predefinito. Hanno un valore di intrattenimento e spesso hanno un uso schiacciante di illustrazioni che toglie un po 'di attenzione ai dati. Va bene, ma penso che dovremmo differenziare un po '.

Esempi

Big data:

Tieni presente che i big data non sono gli stessi di quelli complessi. Molti dati possono essere tutti uguali, come questa mappa di LinkedIn: i dati di base sono gli stessi, ma ci sono filtri (con tag). Esistono due variabili: geografia e una sorta di tag che definisce le persone in professioni / interessi / relazioni. Insana quantità di dati; ma solo due variabili.

inserisci qui la descrizione dell'immagine

Multivariable:

Ecco un esempio di visualizzazione multivariabile di dati. Questa è la carta di Charles Minard del 1869 che mostra il numero di uomini nell'esercito russo della campagna di Napoleone del 1812, i loro movimenti, nonché la temperatura che incontrarono sulla via del ritorno. Grande versione qui. inserisci qui la descrizione dell'immagine

Ci vuole un po 'di tempo per decifrare il codice, ma quando lo fai è splendido. Le variabili coperte sono:

  • dimensione dell'esercito (numero di vivi / morti)
  • posizione geografica
  • direzione (est - ovest)
  • temperatura
  • ora (date)
  • causalità (morto in battaglie e di freddo)

Questa è una quantità incredibile di informazioni in una semplice mappa a due colori. La parte geografica è stilizzata per dare spazio alle altre variabili, ma non abbiamo problemi a ottenerla.

Eccone uno più complicato. Sarà molto più facile da leggere se hai familiarità con visualizzazioni evolutive di base, cladogrammi, filogenesi e principi di biogeografia. Tieni presente che è fatto per le persone che hanno familiarità con questo, quindi è un grafico scientifico specialistico. Ecco cosa mostra: un'immagine fillogeografica dei lignaggi di rane velenose dal Sud America. Le mappe a sinistra mostrano le principali regioni biogeografiche mentre cambiano nel tempo e l'immagine a destra mostra i lignaggi delle rane nel contesto delle loro origini biogeografiche. (Di Santos JC, Coloma LA, Summers K, Caldwell JP, Ree R, e altri. [CC-BY-SA-2.5 (www.creativecommons.org/licenses/by-sa/2.5)], tramite Wikimedia Commons). Quando si "decifra il codice" è selvaggiamente, incredibilmente informativo.

inserisci qui la descrizione dell'immagine

Piccoli multipli, sparkline:

Non posso sottolinearlo abbastanza: non sottovalutare mai il valore di ripetere le informazioni o dividerle in visualizzazioni identiche separate. Finché è ragionevolmente facile confrontare un grafico con un altro, questo va perfettamente bene. Siamo macchine per trovare modelli. Questo è spesso indicato come piccoli multipli. Abbiamo pochi problemi ad analizzare queste immagini abbastanza rapidamente e stipare tutto in un unico grande grafico è spesso inutile quando dieci piccole funzioneranno ancora meglio:

inserisci qui la descrizione dell'immagine

Un altro:

inserisci qui la descrizione dell'immagine

E uno che utilizza una grafica diversa ma ripetitiva:

inserisci qui la descrizione dell'immagine

Sparkline è un termine coniato da Edward Tufte e sviluppato anche in una libreria javascript pienamente funzionante e completamente personalizzabile. Sono fondamentalmente minuscoli grafici che possono essere inseriti nel testo, come parte del testo e non come oggetto "esterno". Ecco come appare il default: inserisci qui la descrizione dell'immagine

Modifica III (premi Nobel)

Ho dovuto solo aggiungere questa visualizzazione dei dati che ho trovato, è semplicemente troppo buona: mostra i premi Nobel. Quale università, quale facoltà, materia, anno, età, città natale, se condivisa, livello di laurea. Bella prova davvero. Questi sono tutti dati quantificabili. Più qui

inserisci qui la descrizione dell'immagine

inserisci qui la descrizione dell'immagine

I tuoi dati

Tutte le domande poste da @Javi sono estremamente importanti.

Quello che stai cercando di fare è creare uno strumento visivo per pensare. Per fare ciò, è necessario estrarre la migliore qualità del rapporto segnale-rumore. Ciò di cui stai lottando è come correlare i dati con variabili diverse, alle informazioni . Ecco una domanda: cosa deve essere approssimativamente giusto e cosa deve essere esattamente giusto? Qual è lo scopo?

Presumo che tu voglia visualizzare i dati senza troppa distorsione: vuoi che il lettore trovi delle correlazioni, se ci sono delle correlazioni. Il tuo obiettivo non è di dire alla gente che gli hamburger fanno male a loro o che le donne mangiano meno hamburger degli uomini, ma di lasciarli "vedere", se questo è ciò che i dati contengono (immagina se quelle tre persone fossero una famiglia. oscilla un po 'la nostra vista sull'intero grafico del consumo di hamburger).

Il tuo set di dati è così piccolo che potresti semplicemente mettere tutto in una tabella e andrebbe bene. Ma ovviamente si tratta dell'idea generale:

Un piccolo dettaglio: il tempo (età) tende ad essere qualcosa che vediamo come orizzontale da sinistra a destra (linee temporali). Pesa qualcosa che è su-giù, quindi cambiare la tua x - y sarebbe una buona idea.

1. Quali sono le entità uniche e fisse?

  • nomi

2. quali sono le variabili (eh ..) variabili?

  • Peso (kg)
  • Età (anni)
  • Numero di hamburger (intero)
  • Tipo di hamburger (intero)

Nota: i tuoi dati sono costituiti interamente da unità. Contabili, quantificabili ciascuno su una scala mentale separata. Chilo, età, peso e numeri. E in database-speak, i loro nomi sono le chiavi. Quando inizi a realizzare visualizzazioni spazio-tempo, diventa un vero mal di testa. Immagina di aggiungere il luogo di nascita, la casa attuale ecc.

Gli unici due qui che hanno una correlazione è il numero di hamburger e se è una combinazione. Tutte le altre variabili sono indipendenti e solo una è fissa (nome). Ad un certo punto, con grandi set di dati, anche i nomi diventano poco interessanti e vengono sostituiti da dati demografici, età, sesso o simili.

Con quel piccolo set di dati, potresti ottenere tutto in un grafico, ad esempio in questo modo: inserisci qui la descrizione dell'immagine

Oppure puoi modificare l'altezza e il contenuto del fumetto:

Nota personale: penso che questo sia il migliore dei due, perché xey contiene proprietà "fisiche" di un essere umano. La variabile tra le bolle qui è il numero di hamburger.

inserisci qui la descrizione dell'immagine

Puoi anche aggiungere grafici a torta oltre al grafico, o anche solo grafici a torta. Personalmente avrei avuto entrambi, come detto su piccoli multipli: inserisci qui la descrizione dell'immagine

Vuoi le patatine con quello?

La mia ipotesi era che volevamo anche sapere il rapporto tra hamburger e pasto. Ogni pasto contiene un hamburger. Non tutti i pasti sono combinati.

  1. vogliamo solo sapere se una persona a volte mangia combomeal?
  2. o vogliamo sapere quanti dei pasti di hamburger sono anche combomeal?

Se 1., farebbe un booleano applicato al nome / chiave / ID.

Jane a volte mangia combomeals? Vero falso.

Se 2., potremmo applicare un valore booleano ad ogni pasto:

1 cheeseburger, combomeal = true

1 cheeseburger, combomeal = true

1 cheeseburger, combomeal = falso

1 cheeseburger, combomeal = falso

1 cheeseburger, combomeal = falso

1 cheeseburger, combomeal = falso

1 cheeseburger, combomeal = falso

1 beefburger, combomeal = true

1 beefburger, combomeal = true

1 beefburger, combomeal = falso

È molto noioso, quindi possiamo scomporlo in:

Jane mangia 10 hamburger. Di questi, tre sono combo ("vuoi patatine con quello?").

Uno dei combomeals è un menu di hamburger.

Due dei combomeal sono menu di cheeseburger.

Il resto sono hamburger singoli. 5 formaggi, due manzo.

Questo diagramma a pioli era un tentativo di visualizzarlo. In questa versione ho mantenuto le sezioni della torta per renderle più chiare. Il fatto è che non sarebbe un passo avanti iniziare ad applicare set di dati di grandi dimensioni e%: inserisci qui la descrizione dell'immagine

Ma penso che il modo migliore sia ripensare.

Un altro modo di vederlo è quello di farlo davvero molto semplice. Qui è più facile vedere quali fasce d'età, quali fasce di peso e tutti i dati che non "possiedi" possono dirci. I dati che hai non sono legati allo spazio, sono solo unità (kg, anni, numeri + chiave / ID / nome):

(Modifica: uovo sul mio viso: ho sostituito queste immagini con altre più corrette, per quanto riguarda "tutti i pasti sono hamburger, non tutti i pasti sono combinati")

inserisci qui la descrizione dell'immagine Sarebbe abbastanza facile espandersi con più persone:

inserisci qui la descrizione dell'immagine O, ancora meglio, se si confrontano le fasce di età di 10, 20 e 30 anni, è possibile creare una visualizzazione statistica piuttosto semplice da leggere:

inserisci qui la descrizione dell'immagine

..E solo per essere il più chiaro possibile; ecco un esempio di questo modo di pensare. Questo grafico mostra i sopravvissuti al Titanic, il rapporto tra equipaggio, classe, uomini, donne. inserisci qui la descrizione dell'immagine

Ci saranno molte altre soluzioni, questi sono solo alcuni pensieri.

Potrei andare avanti all'infinito, ma ora ho esaurito me stesso e probabilmente tutti gli altri.

Strumenti con cui giocare:

Gephi

Gapminder Guarda questa fenomenale presentazione TED di Hans Rosling - adoro quel ragazzo

Grafici di Google

somvis

Raphaël

MIT Exhibit (precedentemente chiamato Similie)

d3

Highcharts

Ulteriori letture:

PJ Onori; In difesa del duro

Edward Tufte: bella prova

Edward Tufte: Immaginare informazioni

Edward Tufte: la visualizzazione visiva di informazioni quantitative

Spiegazioni visive: immagini e quantità, prove e narrativa

Male, Alan., 2007 Illustrazione una prospettiva teorica e contestuale Losanna, Svizzera; New York, NY: AVA Academia

Isles, C. & Roberts, R., 1997. Nella luce visibile, fotografia e classificazione in arte, scienza e quotidianità, Museum of modern art Oxford.

Card, SK, Mackinlay, J. & Shneiderman, B. eds., 1999. Letture nella visualizzazione delle informazioni: utilizzo di Vision to Think 1st ed., Morgan Kaufmann.

Grafton, A. & Rosenberg, D., 2010. Cartografie del tempo: una storia della cronologia, Princeton Architectural Press.

Lima, M., 2011. Visual Complexity: Mapping Patterns of Information, Princeton Architectural Press.

Bounford, T., 2000. Diagrammi digitali: come progettare e presentare informazioni statistiche in modo efficace 0 ed., Watson-Guptill.

Steele, J. & Iliinsky, N. eds., 2010. Bella visualizzazione: guardare i dati attraverso gli occhi degli esperti 1 ° ed., O'Reilly Media.

Gleick, J., 2011. L'informazione: una storia, una teoria, un diluvio, il Pantheon


Ho letto tutto, ma ci vorranno settimane per assorbire. Dovresti scrivere un libro!
Joshua Frank,

Per l'immagine del premio Nobel, sai come l'hanno fatta? Quei nastri scorrevoli sono semplicemente meravigliosi.
Joshua Frank,

No, non so esattamente come ha fatto, ma Giorgia Lupi sono stato molto prossima rispondendo ad alcune altre domande, così si potrebbe provare semplicemente chiedendole giorgialupi.net
benteh

Ehi, buona idea. Le ho appena inviato un'e-mail.
Joshua Frank,

2
Ti meriti un nuovo premio per questa risposta n_n
Rafael,

5

Penso che ci siano alcune domande aggiuntive che potrebbero restringere la tua ricerca della chiave per rappresentare i dati al tuo pubblico. Li penso proprio come limitare il tuo curriculum a un lavoro specifico che desideri.

  1. Perché stai creando un'infografica.
  2. Qual è l'obiettivo o il risultato netto che vuoi che il tuo pubblico sappia sui tuoi dati.
  3. Cosa sai del tuo pubblico e in che modo si relazionano con i dati. (Età demografica, sesso, geolocalizzazione, peso ecc.)
  4. Qual è il dato più e meno importante che mostrerai e la differenza tra loro.
  5. Quale mezzo / contesto mostrerai i tuoi dati per ottenere al meglio il tuo obiettivo "netto" per crearli in primo luogo? Ad esempio, sarà una rappresentazione digitale di dati o fisici (pensa a jelly bean in un barattolo se il tuo pubblico di destinazione sono bambini). Sarà per una riunione d'ufficio o un'impresa commerciale?
  6. I dati possono essere suddivisi in diversi infografi mantenendo l'integrità del tuo obiettivo per crearli?

I tuoi dati e il tuo obiettivo dovrebbero dettare i termini di ciò che dovresti mostrare e non mostrare. Ad esempio, quanto sarebbe importante mostrare un grafico di ciò che le persone hanno ordinato al McDonald's un martedì tra le 13:00 e le 15:00, quando il tuo obiettivo era solo quello di mostrare il confronto di ciò che le persone ordinavano in generale. La variabile time non è necessaria anche se abbiamo i dati grezzi per essa. Non era il nostro obiettivo.

Per rispondere in modo specifico alle tue domande. Personalmente (soggettivo) penso che quando si passa usando tre / 4 variabili (dimensione, forma, colore, posizione) in un grafico di base come questi, il lettore (io) si annoia / si perde e si annoia / si perde probabilmente non è il motivo per cui il grafico è stato creato. Tuttavia, possono essere totalmente divertenti e coinvolgere davvero il pubblico. Ad esempio, qualcosa di simile a questo come si oppongono a questo . Non sto nemmeno scontando l'importanza del secondo esempio perché sarebbe un infografo davvero efficace se fossi in una riunione in ufficio che mostra dati generali. Ciò ritorna alla domanda sul mezzo e sul contesto di visualizzazione dei dati.

Se stai cercando modi per mostrare le variabili nei dati, suggerirei di ricercare infografiche. Ecco un buon pezzo di partenza da Smashing Magazine sulla creazione di infografiche efficaci. Tieni presente che parte di questo può ed è soggettivo.


2

Questa è un'ottima domanda Veramente.

Brillante linea di pensiero per essere su.

Ci dovrebbe essere qualche discussione al riguardo. Ma la frasei in modo leggermente diverso:

**

Quante proprietà possiamo incrociare con le moderne tecnologie e design illustrativi?

**

La risposta sta in tre aspetti della produzione: display, design e modalità di presentazione ... tutti miscelati e fatturati da spruzzi di considerazione del pubblico.

La visualizzazione è una cosa fisica. Con limiti di dimensioni, risoluzione e spazio colore.

Il design è illimitato, ma il vero aspetto interessante di questa domanda. Come possiamo sfruttare le moderne tecnologie illustrative e la nostra comprensione del design e della creatività per mostrare al meglio il più possibile.

Le modalità di presentazione sono statiche, dinamiche o interattive. Ognuno con i propri punti di forza e di debolezza e aggravato dal mezzo, dal tipo e dalle dimensioni del display.

E come giustamente sottolinea Javi, ma forse non si avvicina abbastanza lontano con ... QUESTO È TUTTO SOGGETTIVO! O no.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.