Come iniziare a costruire un modello di regressione quando il predittore più fortemente associato è binario


11

Ho un set di dati contenente 365 osservazioni di tre variabili vale a dire pm, tempe rain. Ora voglio verificare il comportamento di pmin risposta ai cambiamenti in altre due variabili. Le mie variabili sono:

  • pm10 = Risposta (dipendente)
  • temp = predittore (indipendente)
  • rain = predittore (indipendente)

La seguente è la matrice di correlazione per i miei dati:

> cor(air.pollution)
               pm        temp       rainy
pm     1.00000000 -0.03745229 -0.15264258
temp  -0.03745229  1.00000000  0.04406743
rainy -0.15264258  0.04406743  1.00000000

Il problema è che quando stavo studiando la costruzione di modelli di regressione, è stato scritto che il metodo additivo deve iniziare con la variabile che è maggiormente correlata alla variabile di risposta. Nel mio set di dati rainè fortemente correlato con pm(rispetto a temp), ma allo stesso tempo è una variabile fittizia (pioggia = 1, nessuna pioggia = 0), quindi ora ho idea di dove dovrei iniziare. Ho allegato due immagini con la domanda: Il primo è un grafico a dispersione dei dati, e la seconda immagine è un grafico a dispersione di pm10contro rain, sono anche in grado di interpretare dispersione di pm10contro rain. Qualcuno può aiutarmi come iniziare?

questo è un diagramma a dispersione dei miei dati

diagramma a dispersione di pm10 vs pioggia


3
Questa è una domanda perfettamente praticabile, IMO, anche se proviene da un malinteso.
gung - Ripristina Monica

Una cosa da ricordare con la regressione è che la variabile dipendente è considerata una variabile casuale, mentre i predittori sono considerati fissi variate controllati sperimentalmente. (quindi, fai attenzione quando giri qualcosa in testa). Non sembra esserci alcuna forte correlazione positiva o negativa nella tua matrice, poiché nessuna delle diagonali ? x i 1 , x i 2 , , x i p | r j k | > 0,8yioXio1,Xio2,...,Xiop|rjK|>0.8
Wrktsj,

Risposte:


17

Molte persone credono che dovresti usare alcune strategie come iniziare con la variabile più altamente associata e quindi aggiungere ulteriori variabili a turno fino a quando non si è significativi. Tuttavia, non esiste una logica che costringa questo approccio. Inoltre, si tratta di una sorta di strategia di selezione / ricerca variabile "avida" (cfr. La mia risposta qui: algoritmi per la selezione automatica del modello ). Non devi farlo , e davvero, non dovresti. Se si desidera conoscere la relazione tra pm, e temperain, basta inserire un modello di regressione multipla con tutte e tre le variabili. Dovrai comunque valutare il modello per determinare se è ragionevole e le assunzioni sono soddisfatte, ma il gioco è fatto. Se si desidera verificare alcune ipotesi a priori, è possibile farlo con il modello. Se si desidera valutare l'accuratezza predittiva fuori dal campione del modello, è possibile farlo con la convalida incrociata.

Non devi nemmeno preoccuparti della multicollinearità. La correlazione tra tempe rainè elencata come 0.044nella matrice di correlazione. Questa è una correlazione molto bassa e non dovrebbe causare problemi.


1
grazie mille per i tuoi gentili suggerimenti. sono nuovo di questo sito, non so come usarlo, puoi per favore fornire qualche suggerimento extra o studiare materiali
Syed Asif Ali Shah,

1
@SyedAsifAliShah, a parte questo, l'inglese non sembra essere la tua lingua madre, non vedo alcun problema con il modo in cui stai usando il sito. Per quanto riguarda i materiali di studio, puoi guardare questo o questo , o semplicemente sfogliare i nostri thread con il tag di riferimento .
gung - Ripristina Monica

dovrei provare il modello lineare o GLM per i miei dati ??
Syed Asif Ali Shah,

1
@SyedAsifAliShah, presumibilmente un modello lineare va bene per i tuoi dati.
gung - Ripristina Monica

fratello ho bisogno del tuo aiuto
Syed Asif Ali Shah,

10

Anche se questo non riguarda direttamente il tuo set di dati già raccolto, un'altra cosa che potresti provare la prossima volta che raccogli dati come questo è evitare di registrare "pioggia" come binario. I tuoi dati sarebbero probabilmente più informativi se avessi invece misurato il tasso di pioggia (cm / ora), che ti darebbe una variabile distribuita continuamente (fino alla tua precisione di misurazione) da 0 ... max_rainfall.

Ciò ti permetterebbe di correlare non solo "piove" alle altre variabili, ma anche "quanto piove".


ciao fratello ho fatto lo stesso secondo il tuo suggerimento ho raccolto i dati completi di pioggia e modello di costruzione
Syed Asif Ali Shah

posso chiedere la tua email per favore ??? voglio solo fare qualche domanda
Syed Asif Ali Shah,

Se hai ulteriori domande sulla configurazione del tuo modello, forse una nuova domanda StackExchange sarebbe la strada da percorrere. In questo modo puoi ricevere feedback da più persone, molte delle quali sono più esperte di me.
JKreft

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.