Quali migliori pratiche dovrei seguire quando preparo le trame?


Risposte:


23

I principi di Tufte sono ottime pratiche nella preparazione dei grafici. Vedi anche il suo libro Beautiful Evidence

I principi includono:

  • Mantenere un elevato rapporto inchiostro / dati
  • Rimuovi la spazzatura del grafico
  • Assegna più funzioni all'elemento grafico
  • Tieni presente la densità dei dati

Il termine da cercare è Visualizzazione informazioni


4
La visualizzazione visiva delle informazioni quantitative di Tufte ( amazon.com/o/ASIN/0961392142/ref=nosim/gettgenedone-20 ) è migliore di Beautiful Evidence IMO. Tutti e quattro i suoi libri sono buoni, e se hai l'opportunità di frequentare uno dei suoi corsi, fallo.
Stephen Turner,

5
Sono d'accordo con la maggior parte di ciò che dice Tufte, ma devo dire che i suoi dati bassi: i grafici a scatola di inchiostro sono semplicemente idioti. Penso che mi impieghino 3-4 volte in più per capire che i grafici a scatole standard. I valori di default di R sono molto migliori (anche se le linee alle estremità delle code non sono necessarie). I grafici a scatole tradizionali hanno l'ulteriore vantaggio di poter rappresentare le dimensioni del campione (con larghezza) e le deviazioni standard (con le tacche).
naught101

2
+1 @ naught101 alcuni altri condividono questa opinione su SO: stackoverflow.com/questions/6973394/…
Ben

15

Potremmo rimanere qui tutto il giorno a indicare le migliori pratiche, ma dovresti iniziare leggendo Tufte. La mia raccomandazione principale:

Mantienilo semplice.

Spesso le persone cercano di caricare i loro grafici con informazioni. Ma dovresti davvero avere un'idea principale che stai cercando di trasmettere e se qualcuno non riceve il tuo messaggio quasi immediatamente, allora dovresti ripensare a come lo hai presentato. Quindi non iniziare a lavorare sul tuo grafico fino a quando il messaggio stesso non è chiaro. Il rasoio di Occam si applica anche qui.


1
Sono d'accordo con la maggior parte di questo punto, ma penso "Mantieni la semplicità". potrebbe non essere chiaro. Il punto principale è che dovresti sapere cosa vuoi che il grafico trasmetta. "Mantienilo semplice." riporta alcune altre idee, come "I dati: il rapporto di inchiostro dovrebbe essere elevato", che incoraggia Tufte, e "Presentare non più di tre variabili", che scoraggia Tufte.
Thomas Levine,

Chiaramente questo consiglio è immensamente migliore del contrario. Ma ci sono situazioni in cui un grafico è necessariamente complicato e richiede uno studio dettagliato, attento e ponderato. Ma la complicazione dovrebbe essere essa stessa il più semplice possibile. Ad esempio, 25 grafici in una matrice 5 x 5 potrebbero richiedere uno studio prolungato, ma l'idea che ciascuno mostri solo alcuni dei dati è relativamente facile da comprendere.
Nick Cox,

12

Una regola empirica che non seguo sempre ma che a volte è utile è tenere conto del fatto che è probabile che la trama a un certo punto nel suo futuro sarà

  • inviato via fax,
  • fotocopiato e / o
  • riprodotto in bianco e nero.

Devi cercare di chiarire abbastanza le tue trame che, anche se in futuro saranno riprodotte in modo impreciso, le informazioni che la trama sta cercando di trasmettere sono ancora leggibili.


14
Penso che intendi spedito via fax ad un certo punto in passato ;)
Hadley,

+1 per questo. La tua trama fondamentale, il cuore della tua carta, non dovrebbe essere del tutto incomprensibile perché l'ho stampata.
Fomite,

questa risposta risolve un problema simile.
naught101

8

Oltre a trasmettere un messaggio chiaro, cerco sempre di ricordare la trama:

  • le dimensioni dei caratteri per le etichette e le legende dovrebbero essere abbastanza grandi, preferibilmente le stesse dimensioni e il carattere utilizzati nella pubblicazione finale.
  • le larghezze di riga dovrebbero essere abbastanza grandi (le linee da 1 pt tendono a scomparire se i grafici vengono ridotti solo leggermente). Provo ad andare a larghezze di linea da 3 a 5 pt.
  • se si tracciano più set di dati / curve con colori assicurarsi che possano essere compresi se stampati in bianco e nero, ad esempio utilizzando simboli o stili di linea diversi oltre al colore.
  • usa sempre un formato senza perdita (o quasi senza perdita), ad esempio un formato vettoriale come pdf, ps o svg o png o gif ad alta risoluzione (jpeg non funziona affatto e non è mai stato progettato per la grafica).
  • preparare la grafica nelle proporzioni finali da utilizzare nella pubblicazione. La modifica delle proporzioni in un secondo momento può dare carattere irritante o forme di simboli.
  • rimuovere sempre il disordine inutile dal programma di stampa come informazioni sull'istogramma inutilizzate, linee di tendenza (difficilmente utili) o titoli predefiniti.

Ho configurato il mio software di stampa (matplotlib, ROOT o root2matplotlib) per fare la maggior parte di questo diritto di default. Prima stavo usando gnuplotche necessitava di cure extra qui.


8

Nel campo della fisica esiste una regola secondo cui l'intero documento / report dovrebbe essere comprensibile solo da una rapida occhiata ai grafici. Quindi consiglierei principalmente che dovrebbero essere autoesplicativi.
Ciò implica anche che devi sempre verificare se il tuo pubblico ha familiarità con una sorta di trama: una volta avevo commesso un grosso errore supponendo che ogni scienziato sapesse quali sono i grafici a scatole, e poi ho perso un'ora a spiegarlo.


Simpatie per l'esperienza della trama della scatola, ma ciò che ciò implica è (a) l'uso di una variante relativamente semplice (ad es. Mostrando punti mediani, quartili, punti 5% e 95% e tutti i punti dati oltre) piuttosto che mostrare qualcosa basato sulla convenzione centrata su 1.5 IQR; (b) aggiungere una didascalia che rende esplicite le convenzioni.
Nick Cox,

6

Ecco le mie linee guida, basate sugli errori più comuni che vedo (oltre a tutti gli altri punti positivi citati)

  • Usa grafici a dispersione, non grafici a linee, se l'ordine degli elementi non è rilevante.
  • Quando si preparano grafici che devono essere confrontati, utilizzare lo stesso fattore di scala per tutti.
  • Ancora meglio: trova un modo per combinare i dati in un singolo grafico (ad esempio: i grafici a scatole sono migliori di diversi istogrammi per confrontare un gran numero di distribuzioni).
  • Non dimenticare di specificare le unità
  • Usa una legenda solo se necessario: in genere è più chiaro etichettare le curve direttamente.
  • Se devi usare una legenda, spostala all'interno della trama, in un'area vuota.
  • Per i grafici a linee, punta a un rapporto di formato che produce linee che si trovano approssimativamente a 45 ° con la pagina .

"I grafici a scatole sono meglio di diversi istogrammi per confrontare un gran numero di distribuzioni" - questo è vero solo se i tuoi dati sono unimodali e non ha curtosi o altre caratteristiche che non possono essere catturate dai grafici a scatole.
naught101

6

Dai un'occhiata alla libreria grafica R, ggplot2. I dettagli sono disponibili all'indirizzo http://had.co.nz/ggplot2/ Questo pacchetto genera trame predefinite molto buone, che seguono i principi di Tufte, le linee guida di Cleveland e il pacchetto di colori di Ihaka.


6

Se si stampa a colori, considerare che le persone daltoniche potrebbero avere difficoltà a distinguere gli elementi in base al solo colore. Così:

  • Usa gli stili di linea per distinguere le linee.
  • Usa un peso extra negli elementi, crea una larghezza di linea di almeno 2 pt, ecc.
  • Usa diversi marker e colori per distinguere i punti.
  • Usa etichette e annotazioni, facendo riferimento anche a posizione e stile.
  • Quando si fa riferimento agli elementi della trama nel testo, descriverli per colore, posizione relativa e stile: "la curva rossa, superiore, trattino-punto"
  • Usa una tavolozza per non vedenti. Vedi http://www.vischeck.com/vischeck/ , http://jfly.iam.u-tokyo.ac.jp/color/#pallet . Ho una semplice implementazione in Python della palette nell'ultimo riferimento su code.google.com, cerca python-cudtools

Considera anche il fatto che qualcuno potrebbe doverlo stampare su una stampante in scala di grigi. L'ho già fatto in precedenza - ho usato i colori predefiniti di ggplot2 (che sembrano fantastici su uno schermo) per un compito, che poi ho stampato in bianco e nero, e metà dei colori non potevano essere distinti dagli altri! * arrossire *
naught101

4

Questi sono suggerimenti meravigliosi. Abbiamo assemblato molto materiale su http://biostat.mc.vanderbilt.edu/StatGraphCourse . Un gruppo di statistici dell'industria farmaceutica, del mondo accademico e della FDA sta anche creando una risorsa che sarà molto utile per gli studi clinici e la ricerca correlata. Molto nuovo materiale sarà svelato tra un mese ma molto è già lì - http://www.ctspedia.org/do/view/CTSpedia/PageOneStatGraph

Il mio libro di grafica preferito personale è Elements of Graphing Data di William Cleveland.

In termini di software, secondo me è difficile battere i pacchetti ggplot2 e reticolo di R. Stata supporta anche alcuni elementi grafici eccellenti.


3

Dipende anche da dove non vuoi pubblicare i tuoi grafici. Ti risparmierai un sacco di problemi consultando la guida per gli autori prima di fare trame per un diario.

Salvare anche i grafici in un formato facile da modificare o salvare il codice utilizzato per crearli. È probabile che sia necessario apportare correzioni.



2

Le altre risposte sono troppo formali per essere convincenti, quindi lasciatemi dare una risposta più generale. Ho lottato con questa domanda per un po '. Offro questo processo:

  1. Conosci il tuo messaggio
  2. Conosci il tuo pubblico
  3. Conosci i tuoi vincoli
  4. Adatta il tuo messaggio al tuo pubblico dati i tuoi vincoli

Sono scettico nei confronti di affermazioni generali come "keep it simple" - cosa significa? Bene, dipende dal pubblico. Alcuni spettatori mangeranno lo stile Tufte. Ma alcuni spettatori apprezzano di tanto in tanto un po 'di ciarpame grafico. Alcune persone sono annoiate da grafici a dispersione. Ad alcune persone piacciono gli sfondi colorati. È così sbagliato coinvolgerli un po 'anche se si compromette la purezza "estetica"? Sta a te decidere.

La reazione del pubblico sarà un feedback importante, ma non l'unico. Se trovi un modo per misurare la loro comprensione prima e dopo la presentazione, inizierai a capire l'impatto che hai avuto.

La risposta "giusta" dipenderà da questo tipo di domande:

  • Quale supporto utilizzerai?

  • Stai creando grafici statici o interattivi?

  • Stai cercando di raccontare una storia predefinita (esposizione) o incoraggiare la sperimentazione (esplorazione)?

  • In che misura vuoi che il pubblico tragga le proprie conclusioni?

  • In che misura desideri che il pubblico segua e sia convinto della tua storia?

  • In che misura desideri che il pubblico metta alla prova le tue scoperte?

In sintesi, progetta i tuoi materiali deliberatamente dato il tuo messaggio, pubblico e vincoli.


"Coinvolgere" o distrarre? Il colore può essere ok, ma alla fine sei qui per i dati, e l'estetica dovrebbe servire i dati, e non viceversa.
naught101

2

Una cosa che mi sembra di ricordare che Tufte abbia menzionato, che non è nelle altre risposte, è la mappatura , ovvero la posizione, la direzione, le dimensioni, ecc. Sul grafico rappresentano la realtà . Ciò che è nel grafico dovrebbe essere nel mondo reale. Ciò che è grande dovrebbe essere grande (tenendo presente che le aree dovrebbero rappresentare aree e volumi di volumi. Non tentare mai di rappresentare un valore scalare di un'area, è altamente ambiguo!). Questo vale anche per colori, forme, ecc., Se rilevanti.

Un esempio interessante è il grafico "serie gonna" qui: http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html . Mentre tecnicamente è corretto, ed una lunghezza gonna "alto" occupa una posizione più alta del grafico, in realtà molto confusa, perché gonna parte dalla parte superiore , e va verso il basso (differenza di esseri umani, o alberi, dove si misura l'altezza dal terra). Quindi una maggiore lunghezza della gonna rappresenta in realtà un valore inferiore :

skirts <- scan("http://robjhyndman.com/tsdldata/roberts/skirts.dat",skip=5)
skirtsseries <- ts(skirts,start=c(1866))
plot.ts(skirtsseries, ylim=c(max(skirts),min(skirts)))

inserisci qui la descrizione dell'immagine

Ci sono, come sempre, difficoltà. Ad esempio, generalmente consideriamo il tempo per andare avanti e, almeno in occidente, leggiamo da sinistra a destra, quindi i grafici delle serie temporali di solito scorrono da sinistra a destra quando il tempo aumenta. Quindi cosa succede se vuoi rappresentare qualcosa che è meglio rappresentato lateralmente (ad esempio misurazioni est-ovest di qualcosa), nel tempo? In tal caso, devi scendere a compromessi e ritrarre il tempo in uno spostamento verso l'alto o verso il basso (che dipende ancora una volta dalle percezioni culturali, immagino), oppure scegliere di mappare la variabile laterale su / giù sul grafico.


1
Un esempio del trade off per il tempo / lo spazio è nel libro Making Maps (discussione critica ed esempi forniti qui .
Andy W

Bell'esempio (orribile)! Le mappe generano un altro compromesso più difficile: cercare di rappresentare 2 dimensioni + tempo su una pagina bidimensionale (ad es. Mappe di deriva continentale). Abbastanza difficile. Ma immagino che sia per questo che servono le animazioni :)
naught101

Il tuo esempio esplicativo consente di menzionare due punti extra che spesso sorgono. 1. Con un asse temporale, un titolo o un'etichetta come "TEMPO" è generalmente ridondante. 2. Titoli o etichette come "skirtseries" possono sempre essere migliorati con una spiegazione concisa ma informativa, comprese le unità di misura, se del caso.
Nick Cox,

1

Dipende dal modo in cui verranno discusse le trame.

Ad esempio, se invio grafici per una riunione di gruppo che verrà eseguita con chiamanti da diverse posizioni, preferisco metterli insieme in Powerpoint rispetto a Excel, quindi è più facile capovolgere.

Per le chiamate tecniche one-to-one, inserirò qualcosa in Excel in modo che il client sia in grado di spostare un diagramma e visualizzare i dati non elaborati. Oppure, posso inserire i valori p nelle celle lungo i coefficienti di regressione laterale, ad es

Ricorda: le trame sono economiche, soprattutto per una presentazione o per l'invio tramite e-mail a un gruppo. Preferirei fare 10 grafici chiari che possiamo sfogliare rispetto a 5 grafici in cui provo a mettere distinte coorti (ad esempio "maschi e femmine") sullo stesso grafico.


1

Aggiungerei che la scelta della trama dovrebbe riflettere il tipo di test statistico utilizzato per analizzare i dati. In altre parole, qualsiasi caratteristica dei dati sia stata utilizzata per l'analisi dovrebbe essere mostrata visivamente, quindi mostreresti mezzi ed errori standard se avessi usato un test t, ma i grafici a scatole se avessi usato un test di Mann-Whitney.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.