L'ordine delle variabili conta nella regressione lineare


9

Sto studiando l'interazione tra due variabili ( e ). Esiste una grande correlazione lineare tra queste variabili con . Dalla natura del problema non posso dire nulla sulla causa (se causa o viceversa). Vorrei studiare le deviazioni dalla linea di regressione, al fine di rilevare valori anomali. Per fare ciò posso costruire una regressione lineare di in funzione di o viceversa. La mia scelta di ordine variabile può influenzare i miei risultati?x 2 r > 0,9 x 1 x 2 x 1 x 2x1x2r>0.9x1x2x1x2


Nella ricerca di valori anomali, è necessario innanzitutto regredire la variabile dipendente rispetto a e x 2 e cercare valori anomali. x1x2
schenectady,

La ricerca di valori anomali è la pupilla della tua indagine? In tal caso, dovresti prima regredire la variabile dipendente rispetto a e x 2 e quindi eseguire test anomali. Se trovi una possibile causalità, dovresti considerare di eseguire un esperimento progettato. Se lo scopo del tuo esperimento è di trovare una relazione tra le tue due variabili indipendenti, guardare un caso di dati raccolti non farà il trucco. x1x2
schenectady,

Non mi è chiaro cosa intendi per valori anomali. Se ci sono valori anomali nei dati, questi influenzeranno il calcolo della linea di regressione. Perché stai cercando valori anomali in e x 2 contemporaneamente? x1x2
DQdlM,

@schenectady Usa $$ per LaTeX nei commenti, per favore.

Risposte:


3

Sicuramente può (in realtà, importa anche riguardo alle ipotesi sui tuoi dati - fai solo ipotesi sulla distribuzione del risultato data la covariata). Alla luce di ciò, potresti cercare un termine come "varianza della previsione inversa". Ad ogni modo, la regressione lineare non dice nulla sulla causalità! Nel migliore dei casi, puoi dire qualcosa sulla causalità attraverso un'attenta progettazione.


3

Per rendere il caso simmetrico, si può regredire la differenza tra le due variabili ( ) rispetto al loro valore medio.Δx


3

La regressione standard minimizza la distanza verticale tra i punti e la linea, quindi il passaggio tra le 2 variabili minimizzerà ora la distanza orizzontale (dato lo stesso diagramma a dispersione). Un'altra opzione (che prende diversi nomi) è quella di ridurre al minimo la distanza perpendicolare, questo può essere fatto usando i componenti principali.

Ecco un codice R che mostra le differenze:

library(MASS)

tmp <- mvrnorm(100, c(0,0), rbind( c(1,.9),c(.9,1)) )

plot(tmp, asp=1)

fit1 <- lm(tmp[,1] ~ tmp[,2])  # horizontal residuals
segments( tmp[,1], tmp[,2], fitted(fit1),tmp[,2], col='blue' )
o <- order(tmp[,2])
lines( fitted(fit1)[o], tmp[o,2], col='blue' )

fit2 <- lm(tmp[,2] ~ tmp[,1])  # vertical residuals
segments( tmp[,1], tmp[,2], tmp[,1], fitted(fit2), col='green' )
o <- order(tmp[,1])
lines( tmp[o,1], fitted(fit2)[o], col='green' )

fit3 <- prcomp(tmp)
b <- -fit3$rotation[1,2]/fit3$rotation[2,2]
a <- fit3$center[2] - b*fit3$center[1]
abline(a,b, col='red')
segments(tmp[,1], tmp[,2], tmp[,1]-fit3$x[,2]*fit3$rotation[1,2], tmp[,2]-fit3$x[,2]*fit3$rotation[2,2], col='red')

legend('bottomright', legend=c('Horizontal','Vertical','Perpendicular'), lty=1, col=c('blue','green','red'))

Per cercare valori anomali puoi semplicemente tracciare i risultati dell'analisi dei componenti principali.

Potresti anche voler guardare:

Bland and Altman (1986), Metodi statistici per valutare l'accordo tra due metodi di misurazione clinica. Lancetta, pp 307-310


0

Le variabili x1 e x2 sono collineari. In presenza di multicollinearità, le stime dei parametri sono ancora imparziali, ma la loro varianza è grande, vale a dire che la tua deduzione sul significato delle stime dei parametri non è valida e la tua previsione avrà ampi intervalli di confidenza.

Anche l'interpretazione delle stime dei parametri è difficile. Nel quadro della regressione lineare, la stima dei parametri su x1 è la variazione in Y per una variazione unitaria in x1 dato che ogni altra variabile esogenea nel modello è mantenuta costante. Nel tuo caso, x1 e x2 sono altamente correlati e non puoi tenere costante x2 quando x1 sta cambiando.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.