Ho un set di dati contenente 365 osservazioni di tre variabili vale a dire pm, tempe rain. Ora voglio verificare il comportamento di pmin risposta ai cambiamenti in altre due variabili. Le mie variabili sono:
pm10= Risposta (dipendente)temp= predittore (indipendente)rain= predittore (indipendente)
La seguente è la matrice di correlazione per i miei dati:
> cor(air.pollution)
pm temp rainy
pm 1.00000000 -0.03745229 -0.15264258
temp -0.03745229 1.00000000 0.04406743
rainy -0.15264258 0.04406743 1.00000000
Il problema è che quando stavo studiando la costruzione di modelli di regressione, è stato scritto che il metodo additivo deve iniziare con la variabile che è maggiormente correlata alla variabile di risposta. Nel mio set di dati rainè fortemente correlato con pm(rispetto a temp), ma allo stesso tempo è una variabile fittizia (pioggia = 1, nessuna pioggia = 0), quindi ora ho idea di dove dovrei iniziare. Ho allegato due immagini con la domanda: Il primo è un grafico a dispersione dei dati, e la seconda immagine è un grafico a dispersione di pm10contro rain, sono anche in grado di interpretare dispersione di pm10contro rain. Qualcuno può aiutarmi come iniziare?

