Rappresentazione di dati sperimentali


9

Ho una discussione con il mio advisor sulla visualizzazione dei dati. Afferma che quando si rappresentano risultati sperimentali, i valori dovrebbero essere tracciati solo con " marcatori ", come mostrato nell'immagine qui sotto. Mentre le curve dovrebbero rappresentare solo un " modello "

Markers.png

D'altra parte credo che una curva non sia necessaria in molti casi per facilitare la leggibilità, come mostrato nella seconda immagine qui sotto:

Lines.png

Sbaglio o il mio professore? Se è il caso successivo, come faccio a spiegarglielo.


5
I punti sono i dati. Le curve che si adattano ai punti non sono i dati. Quindi, se il tuo intento è quello di mostrare i dati ....

3
Come dice JeffE. Per essere ancora più espliciti: le curve che hai tracciato sono un modello, perché hai assunto una forma particolare quando le hai disegnate e hai avuto qualche ragionamento per questa forma. Questo ragionamento si basa su un modello particolare.
Gerrit,

1
Ho inviato una richiesta di migrazione; questo appartiene davvero al crossvalidated, non qui.

2
Penso che potrebbe essere in argomento su CrossValidated, ma è sicuramente anche in argomento qui . La migrazione dovrebbe essere presa in considerazione solo se qui è fuori tema (ci sono domande che sarebbero in tema su due siti, va bene). È una vera domanda con risposte valide, è sicuramente rilevante per molti accademici.

2
Il tuo secondo grafico è dubbio. Se avessi unito i punti con linee rette (forse) hai un argomento per chiarezza visiva. Ma usando una curva stai affermando che il picco della linea blu è a 740 °, e il minimo della linea viola è a 840 °, anche se non hai dati sperimentali a quelle temperature. L'introduzione di min / max al di fuori dei dati misurati è una bandiera rossa.
Darren Cook,

Risposte:


10

Mi piace questa regola empirica:

Se avete bisogno della linea per guidare l'occhio (cioè a mostrare una tendenza che senza la linea non sarebbe visibile nel modo più chiaro), si dovrebbe non mettere la linea.

Gli umani sono estremamente bravi a riconoscere i modelli (siamo piuttosto dalla parte del vedere tendenze che non esistono che perdere una tendenza esistente). Se non siamo in grado di ottenere la tendenza senza linea, possiamo essere abbastanza sicuri che nessuna tendenza possa essere mostrata in modo definitivo nel set di dati.

Parlando del secondo grafico, l'unica indicazione dell'incertezza dei punti di misurazione sono i due quadrati rossi di C: O 1,2 a 700 ° C. La diffusione di questi due significa che non accetterei ad es

  • che c'è una tendenza per C: O 1.2
  • che c'è una differenza tra 2.0 e 3.6
  • e sicuramente i modelli curvi stanno adattando troppo i dati.

senza ottime ragioni fornite. Quello, tuttavia, sarebbe di nuovo un modello.


modifica: risposta al commento di Ivan:

Sono un chimico e direi che non esiste una misurazione senza errori: ciò che è accettabile dipenderà dall'esperimento e dallo strumento.

Questa risposta non è contro la visualizzazione dell'errore sperimentale ma tutto per mostrarla e tenerne conto.

L'idea alla base del mio ragionamento è che il grafico mostra esattamente una misurazione ripetuta, quindi quando la discussione è su come un modello dovrebbe essere adatto (cioè linea orizzontale, linea retta, quadratico, ...) questo può darci un'idea della misurazione errore. Nel tuo caso, ciò significa che non saresti in grado di adattare un quadratico significativo (spline), anche se avessi un modello rigido (ad esempio equazione termodinamica o cinetica) che suggerisce che dovrebbe essere quadratico - semplicemente non hai abbastanza dati .

Per illustrare questo:

df <-data.frame (T      =         c ( 700,  700,  800, 900,  700, 800, 900, 700, 800, 900), 
                 C.to.O = factor (c ( 1.2,  1.2,  1.2, 1.2,  2  , 2  , 2  , 3.6, 3.6, 3.6)),
                 tar    =         c (21.5, 18.5, 19.5, 19,  15.5, 15 , 6  , 16.5, 9, 9))

Ecco un adattamento lineare insieme al suo intervallo di confidenza al 95% per ciascuno dei rapporti C: O:

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
    stat_smooth (method = "lm") + 
    facet_wrap (~C.to.O)

modello lineare

Si noti che per i rapporti C: O più alti l'intervallo di confidenza è molto inferiore a 0. Ciò significa che le ipotesi implicite del modello lineare sono errate. Tuttavia, è possibile concludere che i modelli lineari per i contenuti C: O superiori sono già in eccesso.

Quindi, facendo un passo indietro e adattando solo un valore costante (cioè nessuna dipendenza T):

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
    stat_smooth (method = "lm", formula = y ~ 1) + 
    facet_wrap (~C.to.O) 

nessuna dipendenza T.

Il complemento è di non modellare alcuna dipendenza da C: O:

ggplot (df, aes (x = T, y = tar)) + geom_point (aes (col = C.to.O)) + 
    stat_smooth (method = "lm", formula = y ~ x) 

no C: O dipendenza

Tuttavia, l'intervallo di confidenza coprirebbe una linea orizzontale o anche leggermente ascendente.

Potresti andare avanti e provare, ad esempio, consentendo diversi offset per i tre rapporti C: O, ma usando pendenze uguali.

Tuttavia, già poche altre misurazioni migliorerebbero drasticamente la situazione - nota quanto sono ristretti gli intervalli di confidenza per C: O = 1: 1, dove hai 4 misurazioni anziché solo 3.

Conclusione: se si confrontano i miei punti di cui sarei scettico, trarrebbero troppi punti dai pochi punti disponibili!


hai un'ottima osservazione. Tuttavia, in ingegneria, l'errore sperimentale (incertezza) è molto comune e si presume che l'errore relativo del 3 ~ 5% sia accettabile. Sono comunque tenuto a mostrare i risultati MAX, MIN e AVG. Quindi nel mio caso i marker sono le estremità e la linea è la media.
Ivan P.

esempio molto buono ed estremamente utile (mi hai interessato a R). Quindi, ovviamente, la cosa giusta da fare è ottenere più punti dati.
Ivan P.

12

Come dice JeffE: i punti sono i dati . In generale, è bene evitare di aggiungere curve il più possibile. Uno dei motivi per aggiungere la curva è che rende il grafico più gradevole alla vista, rendendo più leggibili i punti e la tendenza tra i punti. Ciò è particolarmente vero se hai pochi punti dati.

Tuttavia, ci sono altri modi per visualizzare dati sparsi , che potrebbero essere migliori di un diagramma a dispersione. Una possibilità è un grafico a barre, in cui le varie barre sono molto più visibili dei singoli punti. Un codice colore (simile a quello che hai già nella tua figura) ti aiuterà a vedere le tendenze in ogni serie di dati (o le serie di dati potrebbero essere divise e presentate una accanto all'altra in singoli grafici a barre più piccoli).

Infine, se vuoi davvero aggiungere una sorta di linea tra i tuoi simboli, ci sono due casi:

  1. Se ti aspetti che un determinato modello sia valido per i tuoi dati (lineare, armonico, qualunque cosa), dovresti adattare i tuoi dati al modello, spiegare il modello nel testo e commentare l'accordo tra dati e modello.

  2. Se non disponi di un modello ragionevole per i dati, non dovresti includere ipotesi extra nel tuo grafico. In particolare, ciò significa che non dovresti includere alcun tipo di linea tra i tuoi punti tranne le linee dello stretto. Le belle interpolazioni "spline fit" che Excel (e altri software) possono disegnare sono una bugia . Non esiste un motivo valido per cui i tuoi dati seguano quel particolare modello matematico, quindi dovresti attenersi a segmenti di retta.

    Inoltre, in quel caso può essere utile aggiungere un disclaimer da qualche parte nella didascalia della figura, come "le linee sono solo guide per l'occhio".


2
Questo è un consiglio eccellente meno il commento sulle barre più appropriate. Per discussioni simili correlate a ciò, vedere Grafica alternativa per i grafici "handle bar" . Immagina il diagramma elencato dall'OP come un grafico a barre raggruppato, sarebbe estremamente difficile visualizzare la tendenza attraverso intervalli di temperatura. Un modo per rendere più facilmente visibili i punti è di spostarli lungo l'asse xe il lavoro di Cleveland suggerirebbe comunque che dovremmo preferire i punti alle barre.
Andy W,

@Andy W, cosa intendi con "jitter lungo l'asse x"?
Ivan P.

1
@IvanP., Intendo invece di rendere i punti fissati a quel particolare valore sull'ascissa per spostarli leggermente a destra oa sinistra in modo che i punti non si coprano l'un l'altro. Dal resto del grafico dovrebbe essere chiaro che si riferiscono realmente a valori esatti per i gruppi sull'asse xe il leggero jitter non dovrebbe avere alcun effetto sulla visualizzazione dell'andamento tra i valori.
Andy W,

6

1-Il tuo professore sta facendo un punto valido.

2-La trama sicuramente non aumenta la leggibilità IMHO.

3-Dal mio punto di vista, questo non è il forum giusto per porre davvero questo tipo di domanda e dovresti chiederlo a una convalida incrociata.


Sono interessato a sapere dov'è il problema della leggibilità e qualsiasi suggerimento per migliorare è molto gradito
Ivan P.

1

A volte unire i punti ha senso, soprattutto se sono molto densi.

E quindi può avere senso interpolare (ad esempio con una spline ). Tuttavia, se è qualcosa di più avanzato della spline di ordine uno (per il quale è visibilmente ovvio che si tratta solo di unire punti), è necessario menzionarlo.

Tuttavia, nel caso di alcuni punti, o una dozzina di punti, non è così. Lascia i punti così come sono, con dei pennarelli. Se vuoi adattare una linea (o un'altra curva), è un modello. Puoi aggiungerlo, ma sii esplicito, ad es. "Line rappresenta adattamento alla regressione lineare".


0

Penso che ci siano casi in cui uno non sta proponendo un modello esplicito, ma ha bisogno di una sorta di guida per gli occhi. La mia regola quindi è quella di evitare curve come la peste e attenersi a linee rette a tratti tra punti successivi di una serie.

Per uno, questo assunto è più ovvio per i lettori. Anche la spigolosità è brava a tenere i lettori lontani dall'assumere tendenze non supportate dai dati. Se non altro, questo evidenzia solo rumore e valori anomali.

La cosa di cui sono diffidente è l'uso superficiale (non rigoroso, non esplicito) di spline, quadratica, regressione ecc. Molto spesso questo fa sembrare che ci siano tendenze dove non ce ne sono. Un buon esempio di abuso sono le curve disegnate da @Ivan. Con 3 punti dati non credo che nessun massimo o minimo nel modello sottostante sia ovvio.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.