È sbagliato usare i grafici a linee per dati discreti?


12

Ho spesso visto set di dati discreti tracciati come grafici di linea, ma mi viene in mente che la linea fornisce un valore in un punto tra gli intervalli di misurazione che non ha senso per i set di dati discreti. È quindi vero che l'utilizzo dei grafici a linee per dati discreti è errato?

Ad esempio, prendi due set di dati delle serie temporali, uno continuo (il mio peso, misurato quotidianamente al mattino) e uno discreto (il numero di ciambelle che mangio al giorno). Ha senso che il primo set di dati sia un grafico lineare, poiché è ragionevole dedurre che il mio peso in un dato pomeriggio sarà correlato al mio peso la mattina precedente e successiva. Tuttavia, se il numero di ciambelle è rappresentato come un grafico a linee, le linee tra i punti non possono essere dedotte da tale linea.

MODIFICARE

Ecco un altro esempio: il salario minimo orario federale sin dal suo inizio in http://mste.illinois.edu/courses/ci330ms/youtsey/lineinfo.html

A meno che non mi sbagli, le variazioni del salario minimo sono discrete, e quindi non è possibile cercare un tempo selezionato in modo arbitrario e stabilire il salario minimo nel punto usando la linea che collega i punti.


3
(+1) L'esempio del salario minimo orario è eccellente. La stessa formulazione della tua domanda suggerisce una buona risposta: vale a dire che i punti di collegamento su un grafico non sono validi quando indurrebbe il lettore a fare interpolazioni imprecise (o del tutto non valide). Fare una distinzione tra discrezione e discontinuità aiuterebbe con ulteriori analisi: il consumo di ciambelle è discreto mentre il salario minimo è discontinuo. Ognuno merita una diversa forma di trama.
whuber

Ci sono diagrammi in cui un diagramma a dispersione con dati discreti è fuorviante su un diagramma a linee. Per casi semplicissimi in cui è necessaria una sequenza di eventi (isteresi), oppure si verificano oscillazioni tra due livelli e si devono rintracciare i cambiamenti di stato e la loro posizione. Quindi: non utilizzare i grafici a tratteggio per implicare l'interpolazione, ma usarli come guida, se appropriato. Non è abbastanza semplice creare una regola di scelta semplice, ma è necessario prendere in considerazione dati e modello a portata di mano.
Wirrbel,

1
Domanda interessante! Grazie per quello Ho a che fare con molti dati relativi al tempo che derivano in parte da modelli discreti e dati parzialmente misurati. Che dire dell'opzione di usare grafici a linee a gradini per dati discreti (che possono essere continui in un certo senso ma non abbiamo ancora alcuna funzione tra i singoli punti e non possiamo presumere che ne abbiano uno) e quelli regolari per i dati continui? Questo è il modo in cui lo gestisco ..
Cord Kaldemeyer,

@CordKaldemeyer grazie per il commento - Non ero a conoscenza del tipo di grafico "trama a gradini", ma è sicuramente quello che sto cercando. Ho anche trovato questo utile tutorial su come eseguire grafici a linee a gradini in Excel: trumpexcel.com/step-chart-in-excel
user1379351

@ user1379351: Sono contento di poterti aiutare!
Cord Kaldemeyer,

Risposte:


9

I grafici a linee connesse si sono rivelati troppo utili per limitare a una singola interpretazione. Alcuni usi importanti:

  • Valori interpolati . Il caso in cui menzioni dove entrambe le variabili sono continue e ogni punto interpolato lungo la linea come interpretazione significativa.
  • Tasso di variazione . Anche quando i valori intermedi non sono significativi, la pendenza di ciascun segmento di linea è una buona rappresentazione del tasso di variazione. Si noti che per questa interpretazione, i valori X e Y devono essere opportunamente distanziati, il che non è il caso nel diagramma salariale che citi.
  • Confronto dei profili . Quando si confrontano piccoli multipli o misure sovrapposte, le linee possono essere utili anche per fattori categorici. In questo caso, le linee servono per connettere gruppi di risposte per un riconoscimento di pattern limitato. Ecco un esempio di peltiertech.com con il fattore sull'asse Y (anziché sull'X) per la leggibilità dell'etichetta:

inserisci qui la descrizione dell'immagine


1
Vero, ma il 2 ° e il 3 ° grafico sono strettamente meno potenti del primo, poiché non si può usare affatto il calcolo.
Milind R

5

Bene, le ciambelle potrebbero essere legate al peso :-)

Mentre vedo il tuo punto, penso che questo esempio non sia così negativo perché il tempo (sull'asse orizzontale, che è quello a cui si riferiscono le linee) è continuo. Il significato della linea, per me, non è tanto che, in ogni momento della giornata, hai mangiato un certo numero di ciambelle, ma che il numero di ciambelle al giorno cambia in modo regolare. Quindi, potremmo aggiungere qualcosa di simile a un loess più liscio alla linea, e avrebbe senso. È almeno ragionevole pensare alle ciambelle consumate ad ogni ora o anche ogni minuto (anche se questo sarebbe più sensato con una variabile in cui il conteggio al giorno era più alto)

Ciò che è più preoccupante è quando l' asse orizzontale è discreto (e specialmente quando è nominale) ma le linee sono tracciate. Questo non ha davvero senso. Ad esempio, se si sta osservando (diciamo) la percentuale di voti di Obama tra (diciamo) residenti di diverse regioni degli Stati Uniti, non ha senso tracciare una linea tra Nord-Est e Midwest; specialmente perché l'ordine delle regioni è arbitrario, ma cambiare l'ordine cambierebbe le linee. Eppure ho visto grafici come questo.


1
Assolutamente d'accordo sul fatto che ci siano abusi molto peggiori dei grafici a linee là fuori. Mi piace l'approccio più fluido in quanto non collega i punti e quindi non implica dati che non sono presenti. Ma serve a evidenziare la preoccupante tendenza nel consumo di ciambelle. Grazie!
user1379351,

3
Sembra che tu stia proponendo di sostituire una variabile - consumo di ciambelle - con un'altra; vale a dire una densità di consumo di ciambelle (ciambelle per unità di tempo). Anche se questo viene spesso fatto - specialmente nelle analisi bidimensionali (come le mappe della densità di popolazione) - e può essere molto efficace, sarebbe bene che i lettori fossero consapevoli che esiste una distinzione e considerare come tale distinzione potrebbe essere rivelato graficamente.
whuber

2
@whuber Questo è un punto giusto; la linea sembra fare quella sostituzione. Un grafico che non rende tale sostituzione potrebbe essere solo punti, non collegati, ma che sembra suggerire almeno che il consumo di ciambella si trovi in ​​un determinato punto. Quindi, potremmo rendere il tempo continuo e mettere un punto nel momento in cui è stata consumata una ciambella.
Peter Flom - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.