Mi piace questa regola empirica:
Se avete bisogno della linea per guidare l'occhio (cioè a mostrare una tendenza che senza la linea non sarebbe visibile nel modo più chiaro), si dovrebbe non mettere la linea.
Gli umani sono estremamente bravi a riconoscere i modelli (siamo piuttosto dalla parte del vedere tendenze che non esistono che perdere una tendenza esistente). Se non siamo in grado di ottenere la tendenza senza linea, possiamo essere abbastanza sicuri che nessuna tendenza possa essere mostrata in modo definitivo nel set di dati.
Parlando del secondo grafico, l'unica indicazione dell'incertezza dei punti di misurazione sono i due quadrati rossi di C: O 1,2 a 700 ° C. La diffusione di questi due significa che non accetterei ad es
- che c'è una tendenza per C: O 1.2
- che c'è una differenza tra 2.0 e 3.6
- e sicuramente i modelli curvi stanno adattando troppo i dati.
senza ottime ragioni fornite. Quello, tuttavia, sarebbe di nuovo un modello.
modifica: risposta al commento di Ivan:
Sono un chimico e direi che non esiste una misurazione senza errori: ciò che è accettabile dipenderà dall'esperimento e dallo strumento.
Questa risposta non è contro la visualizzazione dell'errore sperimentale ma tutto per mostrarla e tenerne conto.
L'idea alla base del mio ragionamento è che il grafico mostra esattamente una misurazione ripetuta, quindi quando la discussione è su come un modello dovrebbe essere adatto (cioè linea orizzontale, linea retta, quadratico, ...) questo può darci un'idea della misurazione errore. Nel tuo caso, ciò significa che non saresti in grado di adattare un quadratico significativo (spline), anche se avessi un modello rigido (ad esempio equazione termodinamica o cinetica) che suggerisce che dovrebbe essere quadratico - semplicemente non hai abbastanza dati .
Per illustrare questo:
df <-data.frame (T = c ( 700, 700, 800, 900, 700, 800, 900, 700, 800, 900),
C.to.O = factor (c ( 1.2, 1.2, 1.2, 1.2, 2 , 2 , 2 , 3.6, 3.6, 3.6)),
tar = c (21.5, 18.5, 19.5, 19, 15.5, 15 , 6 , 16.5, 9, 9))
Ecco un adattamento lineare insieme al suo intervallo di confidenza al 95% per ciascuno dei rapporti C: O:
ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () +
stat_smooth (method = "lm") +
facet_wrap (~C.to.O)
Si noti che per i rapporti C: O più alti l'intervallo di confidenza è molto inferiore a 0. Ciò significa che le ipotesi implicite del modello lineare sono errate. Tuttavia, è possibile concludere che i modelli lineari per i contenuti C: O superiori sono già in eccesso.
Quindi, facendo un passo indietro e adattando solo un valore costante (cioè nessuna dipendenza T):
ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () +
stat_smooth (method = "lm", formula = y ~ 1) +
facet_wrap (~C.to.O)
Il complemento è di non modellare alcuna dipendenza da C: O:
ggplot (df, aes (x = T, y = tar)) + geom_point (aes (col = C.to.O)) +
stat_smooth (method = "lm", formula = y ~ x)
Tuttavia, l'intervallo di confidenza coprirebbe una linea orizzontale o anche leggermente ascendente.
Potresti andare avanti e provare, ad esempio, consentendo diversi offset per i tre rapporti C: O, ma usando pendenze uguali.
Tuttavia, già poche altre misurazioni migliorerebbero drasticamente la situazione - nota quanto sono ristretti gli intervalli di confidenza per C: O = 1: 1, dove hai 4 misurazioni anziché solo 3.
Conclusione: se si confrontano i miei punti di cui sarei scettico, trarrebbero troppi punti dai pochi punti disponibili!