Come determinare se l'asse y di un grafico dovrebbe iniziare da zero?


45

Un modo comune di "mentire con i dati" è usare una scala dell'asse y che fa sembrare che i cambiamenti siano più significativi di quanto non siano realmente.

Quando rivedo pubblicazioni scientifiche o rapporti di laboratorio degli studenti, sono spesso frustrato da questo "peccato di visualizzazione dei dati" (che credo che gli autori commettano involontariamente, ma si traduce comunque in una presentazione fuorviante).

Tuttavia, "avviare sempre l'asse y da zero" non è una regola rigida. Ad esempio, Edward Tufte sottolinea che in una serie temporale la linea di base non è necessariamente zero:

In generale, in una serie temporale, utilizzare una linea di base che mostra i dati non il punto zero. Se il punto zero si verifica ragionevolmente nel tracciare i dati, va bene. Ma non spendere molto spazio verticale vuoto cercando di raggiungere il punto zero a costo di nascondere ciò che sta accadendo nella stessa linea di dati. (Il libro, Come mentire con le statistiche, è sbagliato su questo punto.)

Ad esempio, ovunque, di punti zero assenti nelle serie storiche, dai un'occhiata a qualsiasi importante pubblicazione di ricerca scientifica. Gli scienziati vogliono mostrare i loro dati, non zero.

L'impulso di contestualizzare i dati è buono, ma il contesto non proviene da uno spazio verticale vuoto che arriva fino a zero, un numero che non si verifica nemmeno in molti buoni set di dati. Invece, per il contesto, mostra più dati in orizzontale!

Voglio evidenziare una presentazione fuorviante nei documenti che recensisco, ma non voglio essere un purista dell'asse y-zero.

Ci sono delle linee guida che indirizzano quando avviare l'asse y da zero e quando ciò non è necessario e / o inappropriato? (Soprattutto nel contesto del lavoro accademico.)


3
Penso che l'inclusione (non inclusa) dello 0 sia potenzialmente fuorviante, dipende in modo critico dalla storia raccontata.
gung - Ripristina Monica

2
In un discorso la frase "nota lo zero fortemente soppresso" o simile può essere usata per portare l'onestà a una figura potenzialmente fuorviante. Non sono contento di ciò nel materiale stampato, ma in un pizzico puoi usarlo anche lì.
dmckee,

Per evitare tutto ciò, sto usando boxplot ogni volta che è possibile. Non è necessario calcolare mezzi e barre di errore ed è ricco di informazioni preziose (ad es. Distribuzione dei dati, diffusione, asimmetria, intervallo) in un unico diagramma. Inoltre, stai mostrando i dati grezzi.
Stefan,

y=0

@NickCox grazie per il tuo commento! Concordo sul fatto che, dopo ANOVA, la dimostrazione di mezzi e barre di errore abbia più senso. Tuttavia, prima di eseguire qualsiasi analisi, trovo che i grafici a scatole siano più informativi e forniscano informazioni sull'aspetto dei dati e sull'opportunità o meno dell'ANOVA scelto. "Lying with data" potrebbe già verificarsi quando, ad esempio, vengono scelti i test parametrici ma i dati non soddisfano i presupposti richiesti. Quindi, per me come lettore di studi scientifici, mi piace sempre vedere grafici a scatole per prendere una decisione in merito ai risultati presentati.
Stefan,

Risposte:


40
  • Non utilizzare lo spazio in un grafico in alcun modo che non aiuta la comprensione. È necessario spazio per mostrare i dati!

  • Usa il tuo giudizio scientifico (ingegneria, medico, sociale, commerciale, ...) così come il tuo giudizio statistico. (Se non sei il cliente o il cliente, parla con qualcuno sul campo per avere un'idea di ciò che è interessante o importante, preferibilmente quelli che commissionano l'analisi.)

  • y

Queste sono tre semplici regole. (Nulla esclude qualche tensione tra loro in occasione.)

Ecco un semplice esempio, ma sorgono tutti e tre i punti: Misuri la temperatura corporea di un paziente in gradi Celsius, in Fahrenheit o persino in kelvin: fai la tua scelta. In che senso è utile o addirittura logico insistere nel mostrare temperature zero? In caso contrario, le informazioni importanti, anche mediche o fisiologicamente cruciali, saranno oscurate.

Ecco una storia vera da una presentazione. Un ricercatore stava mostrando dati sui rapporti sessuali per vari stati e territori sindacali in India. Il grafico era un grafico a barre con tutte le barre che iniziavano da zero. Tutte le barre erano vicine alla stessa lunghezza nonostante alcune notevoli variazioni. Era corretto, ma la storia interessante era che le aree erano diverse nonostante le somiglianze, non che fossero simili nonostante le differenze. Ho suggerito che la parità tra maschi e femmine (1 o 100 femmine / 100 maschi) era un livello di riferimento molto più naturale. (Sarei anche aperto all'uso di un livello generale, come la media nazionale, come riferimento). Anche alcune persone statistiche che hanno ascoltato questa piccola storia a volte hanno risposto: "No; le barre dovrebbero sempre iniziare da zero". Per me questo non è meglio del dogma irrilevante in un caso del genere.

yy

Un tipo comune di trama, specialmente in alcune scienze biologiche e mediche, mostra mezzi o altri riassunti con barre spesse che iniziano con zero e errore standard o intervalli basati sulla deviazione standard che indicano incertezza con barre sottili. Tali detonatori o trame di dinamite, come sono stati chiamati da coloro che disapprovano, possono essere popolari in parte a causa di un detto che lo zero dovrebbe essere sempre mostrato. L'effetto netto è quello di enfatizzare i confronti con zero che spesso mancano di interesse o utilità.

Alcune persone vorrebbero mostrare zero, ma anche aggiungere un'interruzione di scala per mostrare che la scala è interrotta. Cambiamento di moda e cambiamenti di tecnologia. Decenni fa, quando i ricercatori hanno disegnato i propri grafici o delegato l'attività ai tecnici, è stato più semplice chiedere che ciò fosse fatto a mano. Ora i programmi di grafica spesso non supportano le interruzioni di scala, che penso non sia una perdita. Anche se lo fanno, questa è un'aggiunta pignola che può sprecare una frazione moderata dell'area grafica.

x

Esiste naturalmente una regola zeroth che si applica in aggiunta alle tre citate.

  • Qualunque cosa tu faccia, sii molto chiara. Etichetta i tuoi assi in modo coerente e informativo. Quindi fidati che i lettori attenti guarderanno per vedere cosa hai fatto.

Pertanto, su questo punto, sono fortemente d'accordo con Edward Tufte e non sono d'accordo con Darrell Huff.

EDIT 9 maggio 2016:

piuttosto che cercare di includere invariabilmente una linea di base 0 in tutti i grafici, utilizzare invece linee di base logiche e significative

Cairo, A. 2016. The Truthful Art: Data, Charts, and Maps for Communication. San Francisco, CA: New Riders, p.136.


7
A parte questo: penso che le persone siano più inclini a rimanere dogmaticamente attaccate con "inizio da zero" quando i dati sono rappresentati da barre, per il motivo che le barre mostrano area e area è fuorviante se non inizia da zero. Su un diagramma a punti di Cleveland - che spesso è comunque una visualizzazione più adatta - non sembra che un argomento così convincente inizi da zero, e le persone sembrano più disposte a essere flessibili su dove iniziano.
Silverfish

4
Bella risposta. Ho posto questa domanda nel contesto della revisione di un documento che utilizzava costantemente intervalli di assi inappropriati (sottolineando variazioni insignificanti nei dati). Questa risposta mi ha fatto capire che ciò di cui ero veramente frustrato era la mancanza di giudizio (statistico e ingegneristico) nella comprensione e nell'interpretazione dei dati - una cosa molto più costruttiva su cui commentare in una recensione piuttosto che lamentarsi della gamma di assi.
ff524,

4
La regola di iniziare l'asse a zero ha senso solo pensare a variabili continue che sono rapporto, quindi zero ha un significato reale. Un peso di 0 non è un peso. Ecc. Ma le temperature in C o F usano valori arbitrari per zero, quindi non ha senso pensare di iniziare lì l'asse.
Harvey Motulsky,

2

3
Bello, ma vorrei sottolineare che il punto "giudizio" dipende dal pubblico (il pubblico conta sempre !). Il pubblico tecnico leggerà l'asse e capirà le implicazioni. Una certa frazione della popolazione laica ignorerà con determinazione le etichette degli assi e trarrà conclusioni dalla forma del grafico sotto ipotesi potenzialmente errate sulla scala. Se il grafico è destinato a un pubblico laico, allora devi tenerlo in considerazione nel tuo giudizio.
dmckee,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.