Ho un set di dati contenente 365 osservazioni di tre variabili vale a dire pm
, temp
e rain
. Ora voglio verificare il comportamento di pm
in risposta ai cambiamenti in altre due variabili. Le mie variabili sono:
pm10
= Risposta (dipendente)temp
= predittore (indipendente)rain
= predittore (indipendente)
La seguente è la matrice di correlazione per i miei dati:
> cor(air.pollution)
pm temp rainy
pm 1.00000000 -0.03745229 -0.15264258
temp -0.03745229 1.00000000 0.04406743
rainy -0.15264258 0.04406743 1.00000000
Il problema è che quando stavo studiando la costruzione di modelli di regressione, è stato scritto che il metodo additivo deve iniziare con la variabile che è maggiormente correlata alla variabile di risposta. Nel mio set di dati rain
è fortemente correlato con pm
(rispetto a temp
), ma allo stesso tempo è una variabile fittizia (pioggia = 1, nessuna pioggia = 0), quindi ora ho idea di dove dovrei iniziare. Ho allegato due immagini con la domanda: Il primo è un grafico a dispersione dei dati, e la seconda immagine è un grafico a dispersione di pm10
contro rain
, sono anche in grado di interpretare dispersione di pm10
contro rain
. Qualcuno può aiutarmi come iniziare?