In che modo l'aggiunta di un secondo IV può rendere significativo il primo IV?


64

Ho probabilmente una domanda semplice, ma mi sta sconcertando proprio ora, quindi spero che tu mi possa aiutare.

Ho un modello di regressione dei minimi quadrati, con una variabile indipendente e una variabile dipendente. La relazione non è significativa. Ora aggiungo una seconda variabile indipendente. Ora la relazione tra la prima variabile indipendente e la variabile dipendente diventa significativa.

Come funziona? Questo probabilmente sta dimostrando qualche problema con la mia comprensione, ma per me, ma non vedo come l'aggiunta di questa seconda variabile indipendente possa rendere significativa la prima.


4
Questo è un argomento molto discusso in questo sito. Ciò è probabilmente dovuto alla collinearità. Fai una ricerca di "collinearità" e troverai decine di discussioni pertinenti. Suggerisco di leggere alcune delle risposte a stats.stackexchange.com/questions/14500/…
Macro

3
possibili duplicati di predittori significativi diventano non significativi nella regressione logistica multipla . Ci sono molti thread di cui questo è effettivamente un duplicato - quello era il più vicino che ho trovato in meno di due minuti
Macro

3
Questo è una specie del problema opposto di quello nel thread @macro appena trovato, ma i motivi sono molto simili.
Peter Flom - Ripristina Monica

3
@Macro, penso che tu abbia ragione che questo potrebbe essere un duplicato, ma penso che il problema qui sia leggermente diverso dalle 2 domande sopra. L'OP non si riferisce al significato del modello nel suo insieme, né alle variabili che diventano non significative con IV aggiuntivi. Sospetto che non si tratti di multicollinearità, ma di potere o possibilmente soppressione.
gung - Ripristina Monica

3
inoltre, @gung, la soppressione in un modello lineare si verifica solo in presenza di collinearità - la differenza riguarda l'interpretazione, quindi "non si tratta di multicollinearità ma forse di soppressione" imposta una dicotomia fuorviante
Macro

Risposte:


78

Sebbene la collinearità (delle variabili predittive) sia una possibile spiegazione, vorrei suggerire che non è una spiegazione illuminante perché sappiamo che la collinearità è correlata a "informazioni comuni" tra i predittori, quindi non c'è nulla di misterioso o contro-intuitivo sul lato effetto dell'introduzione di un secondo predittore correlato nel modello.

Consideriamo quindi il caso di due predittori che sono veramente ortogonali : tra loro non c'è assolutamente collinearità. Un notevole cambiamento di significato può ancora accadere.

Designare le variabili predittive e e lasciare a nome del predittore . La regressione di rispetto a non sarà significativa quando la variazione di attorno alla sua media non viene sensibilmente ridotta quando viene utilizzato come variabile indipendente. Quando tale variazione è fortemente associata a una seconda variabile , tuttavia, la situazione cambia. Ricordiamo che la regressione multipla di rispetto a e equivale aX 2 Y Y X 1 Y X 1 X 2 Y X 1 X 2X1X2YYX1YX1X2YX1X2

  1. Registra separatamente e contro .X 1 X 2YX1X2

  2. Registra i residui rispetto ai residui .X 1YX1

I residui del primo passaggio hanno rimosso l'effetto di . Quando è strettamente correlato con , ciò può esporre una quantità relativamente piccola di variazione che era stata precedentemente mascherata. Se questa variazione è associata a , otteniamo un risultato significativo.X 2 Y X 1X2X2YX1


Tutto ciò potrebbe forse essere chiarito con un esempio concreto. Per iniziare, usiamo Rper generare due variabili ortogonali indipendenti insieme ad alcuni errori casuali indipendenti :ε

n <- 32
set.seed(182)
u <-matrix(rnorm(2*n), ncol=2)
u0 <- cbind(u[,1] - mean(u[,1]), u[,2] - mean(u[,2]))
x <- svd(u0)$u
eps <- rnorm(n)

(Il svdpassaggio assicura che le due colonne della matrice x(che rappresentano e ) siano ortogonali, escludendo la collinearità come possibile spiegazione di eventuali risultati successivi.)X 2X1X2

Quindi, crea come una combinazione lineare di e dell'errore. Ho modificato i coefficienti per produrre un comportamento controintuitivo:XYX

y <-  x %*% c(0.05, 1) + eps * 0.01

Questa è una realizzazione del modello con casi.n = 32YiidN(0.05X1+1.00X2,0.012)n=32

Guarda le due regressioni in questione. Innanzitutto , regredisci solo contro :X 1YX1

> summary(lm(y ~ x[,1]))
...
             Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.002576   0.032423  -0.079    0.937
x[, 1]       0.068950   0.183410   0.376    0.710

L'alto valore p di 0,710 mostra che è completamente non significativo.X1

Successivamente , regredisci contro e :X 1YX1X2

> summary(lm(y ~ x))
...
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.002576   0.001678  -1.535    0.136    
x1           0.068950   0.009490   7.265 5.32e-08 ***
x2           1.003276   0.009490 105.718  < 2e-16 ***

Improvvisamente, in presenza di , è fortemente significativo, come indicato dai valori p quasi zero per entrambe le variabili.X 1X2X1

Possiamo visualizzare questo comportamento per mezzo di una matrice scatterplot delle variabili , e insieme ai residui usati nella caratterizzazione in due fasi della regressione multipla sopra. Poiché e sono ortogonali, i residui di saranno gli stessi di e pertanto non è necessario ridisegnarli. Includeremo i residui di contro nella matrice scatterplot, dando questa cifra:X 2 Y X 1 X 2 X 1 X 1 Y X 2X1X2YX1X2X1X1YX2

lmy <- lm(y ~ x[,2])
d <- data.frame(X1=x[,1], X2=x[,2], Y=y, RY=residuals(lmy))
plot(d)

Ecco un rendering (con un po 'di prettificazione):

SPM

Questa matrice grafica ha quattro righe e quattro colonne, che conto alla rovescia dall'alto e da sinistra a destra.

Avviso:

  • Il diagramma a dispersione nella seconda riga e nella prima colonna conferma l'ortogonalità di questi predittori: la linea dei minimi quadrati è orizzontale e la correlazione è zero.(X1,X2)

  • Il grafico a dispersione nella terza riga e nella prima colonna mostra la relazione lieve ma completamente insignificante riportata dalla prima regressione di contro . (Il coefficiente di correlazione, , è solo ).Y X 1 ρ 0,07(X1,Y)YX1ρ0.07

  • Il diagramma a dispersione nella terza riga e nella seconda colonna mostra la relazione forte tra e la seconda variabile indipendente. (Il coefficiente di correlazione è ).Y 0.996(X2,Y)Y0.996

  • La quarta riga esamina le relazioni tra i residui di (regredito rispetto a ) e altre variabili:X 2YX2

    • La scala verticale mostra che i residui sono (relativamente) piuttosto piccoli: non siamo riusciti a vederli facilmente nel grafico a dispersione di contro .X 2YX2

    • I residui sono fortemente correlati con ( ). La regressione contro ha smascherato questo comportamento precedentemente nascosto.X1X 2ρ=0.80X2

    • Per costruzione, non vi è alcuna correlazione rimanente tra i residui e .X2

    • Vi è una piccola correlazione tra e questi residui ( ). Questo mostra come i residui possono comportarsi in modo completamente diverso rispetto a stesso. Ecco come può essere improvvisamente rivelato come un contributo significativo alla regressione.Yρ=0.09YX1

Infine, vale la pena notare che le due stime del coefficiente (entrambe uguali a , non lontano dal valore previsto di ) concordano solo perché e sono ortogonali. Tranne che in esperimenti progettati, è raro che l'ortogonalità mantenga esattamente. Una deviazione dall'ortogonalità di solito provoca la modifica delle stime dei coefficienti.X10.068950.05X1X2


Quindi, capisco che spiega la variabilità che non ha. Ciò richiede che sia (più) significativo di ? O può essere reso significativo senza significato di ? X1X2X2X1X1X2
Ronald,

@Ronald, credo che le risposte alle tue domande siano rispettivamente no e sì. Puoi scoprirlo modificando l'esempio in questa risposta: cambia i coefficienti (0,05 e 0,01) nel modello e il numero di casi ( ) per vedere cosa succede. n=32
whuber

23

Penso che questo problema sia stato discusso in precedenza su questo sito in modo abbastanza completo, se solo sapessi dove cercare. Quindi probabilmente aggiungerò un commento in seguito con alcuni collegamenti ad altre domande, o potrei modificarlo per fornire una spiegazione più completa se non riesco a trovarne.

Esistono due possibilità di base: in primo luogo, l'altro IV può assorbire parte della variabilità residua e quindi aumentare la potenza del test statistico del IV iniziale. La seconda possibilità è che tu abbia una variabile soppressore. Questo è un argomento molto intuitivo, ma puoi trovare alcune informazioni qui *, qui o in questo eccellente thread CV .

* Nota che devi leggere fino in fondo per arrivare alla parte che spiega le variabili del soppressore, potresti semplicemente saltare avanti lì, ma sarai meglio servito leggendo il tutto.


Modifica: come promesso, sto aggiungendo una spiegazione più completa del mio punto su come l'altro IV può assorbire parte della variabilità residua e quindi aumentare la potenza del test statistico del IV iniziale. @whuber ha aggiunto un esempio impressionante, ma ho pensato di aggiungere un esempio gratuito che spiega questo fenomeno in modo diverso, il che può aiutare alcune persone a capire il fenomeno più chiaramente. Inoltre, dimostro che il secondo IV non deve essere associato più fortemente (sebbene, in pratica, quasi sempre accada questo fenomeno).

Le covariate in un modello di regressione possono essere testate con test dividendo la stima dei parametri per il suo errore standard, oppure possono essere testate con test partizionando le somme dei quadrati. Quando vengono utilizzati SS di tipo III, questi due metodi di test saranno equivalenti (per ulteriori informazioni sui tipi di SS e test associati, può essere utile leggere la mia risposta qui: Come interpretare SS di tipo I ). Per coloro che hanno appena iniziato a conoscere i metodi di regressione, i test sono spesso al centro dell'attenzione perché sembrano più facili da comprendere per le persone. Tuttavia, questo è un caso in cui penso che guardare la tabella ANOVA sia più utile. Ricordiamo la tabella di base ANOVA per un semplice modello di regressione: tFt

SourceSSdfMSFx1(y^iy¯)21SSx1dfx1MSx1MSresResidual(yiy^i)2N(1+1)SSresdfresTotal(yiy¯)2N1

Qui è la media di , è il valore osservato di per l'unità (ad esempio, paziente) , è il valore previsto del modello per l'unità e è il numero totale di unità nello studio. Se si dispone di un modello di regressione multipla con due covariate ortogonali, la tabella ANOVA potrebbe essere costruita in questo modo: yy¯y y i y i i Nyiyiy^iiN

SourceSSdfMSFx1(y^x1ix¯2y¯)21SSx1dfx1MSx1MSresx2(y^x¯1x2iy¯)21SSx2dfx2MSx2MSresResidual(yiy^i)2N(2+1)SSresdfresTotal(yiy¯)2N1

Qui , ad esempio, è il valore previsto per l'unità se il suo valore osservato per era il suo valore effettivo osservato, ma il suo valore osservato per era la media di . Ovviamente, è possibile che sia il valore osservato di per alcune osservazioni, nel qual caso non ci sono aggiustamenti da fare, ma in genere non è così. Si noti che questo metodo per creare la tabella ANOVA è valido solo se tutte le variabili sono ortogonali; questo è un caso altamente semplificato creato a fini espositivi. y^x1ix¯2ix1x2x2x¯2 x2

Se stiamo considerando la situazione in cui gli stessi dati vengono utilizzati per adattare un modello sia con che senza , i valori osservati e saranno gli stessi. Pertanto, il SS totale deve essere lo stesso in entrambe le tabelle ANOVA. Inoltre, se e sono ortogonali tra loro, allora sarà identico anche in entrambe le tabelle ANOVA. Quindi, come mai ci possono essere somme di quadrati associati a nella tabella? Da dove vengono se il totale SS e sono gli stessi? La risposta è che provengono da . Anche sono presi da y ˉ y x 1 x 2 S S x 1 x 2 S S x 1x2yy¯x1x2SSx1x2SSx1SSresdfx2dfres .

Ora il test di è diviso per in entrambi i casi. Poiché è lo stesso, la differenza nel significato di questo test deriva dalla modifica in , che è cambiata in due modi: è iniziato con meno SS, perché alcuni erano assegnati a , ma quelli sono divisi per meno df, poiché anche alcuni gradi di libertà sono stati assegnati a . Il cambiamento nella significatività / potenza test (e equivalentemente il test- , in questo caso) è dovuto al modo in cui questi due cambiamenti si scambiano. Se vengono dati più SS ax 1 M S x 1 M S res M S x 1 M S res x 2 x 2 F t x 2 x 2 M S res F x 1 pFx1MSx1MSresMSx1MSresx2x2Ftx2, rispetto al df che viene dato a , quindi diminuirà, facendo aumentare la associata a e diventando più significativa. x2MSresFx1p

L'effetto di non deve essere maggiore di perché ciò avvenga, ma se non lo è, gli spostamenti in -values ​​saranno piuttosto piccoli. L'unico modo in cui finirà per passare dalla non significatività alla significatività è se i valori risultano essere solo leggermente su entrambi i lati dell'alfa. Ecco un esempio, codificato in : x 1 p px2x1ppR

x1 = rep(1:3, times=15)
x2 = rep(1:3, each=15)
cor(x1, x2)     # [1] 0
set.seed(11628)
y       = 0 + 0.3*x1 + 0.3*x2 + rnorm(45, mean=0, sd=1)
model1  = lm(y~x1)
model12 = lm(y~x1+x2)

anova(model1)
#  ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  5.314  5.3136  3.9568 0.05307 .
# Residuals 43 57.745  1.3429                  
#  ...
anova(model12)
#  ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  5.314  5.3136  4.2471 0.04555 *
# x2         1  5.198  5.1979  4.1546 0.04785 *
# Residuals 42 52.547  1.2511                  
#  ...

In effetti, non deve essere affatto significativo. Tener conto di: x2

set.seed(1201)
y       = 0 + 0.3*x1 + 0.3*x2 + rnorm(45, mean=0, sd=1)
anova(model1)
# ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  3.631  3.6310  3.8461 0.05636 .
# ...
anova(model12)
# ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  3.631  3.6310  4.0740 0.04996 *
# x2         1  3.162  3.1620  3.5478 0.06656 .
# ...

Questi sono certamente niente come l'esempio drammatico nel post di @ whuber, ma possono aiutare le persone a capire cosa sta succedendo qui.


1
(+1) per "In primo luogo, l'altro IV può assorbire parte della variabilità residua e quindi aumentare la potenza del test statistico del IV iniziale", che @whuber ha fornito un bell'esempio di
Macro

(+1) All'inizio dai tre link. Il primo (quello esterno) è purtroppo rotto (errore 404). A parte questo: tu dici che ci sono "due possibilità di base": il secondo IV aggiunto aumenta la potenza per testare il primo IV (e questa è esattamente la situazione descritta da Whuber e da Wayne nelle loro risposte) o c'è una variabile soppressore (quale tra il primo o il secondo?). La mia domanda: sono davvero due situazioni distinte? O è essenzialmente la stessa cosa, forse vista un po 'diversamente? Sarebbe bello se tu potessi ampliarlo.
ameba dice Ripristina Monica il


@gung, grazie per la risposta. Ttnphns inizia dando un collegamento a un documento che discute la soppressione e alcuni altri effetti correlati, e questo documento afferma che "la definizione più generalmente accettata di una variabile soppressore (Tzelgov & Henik, 1991) [è]" una variabile che aumenta la validità predittiva di un'altra variabile (o insieme di variabili) mediante la sua inclusione in un'equazione di regressione "". Sembra esattamente ciò che l'OP ha chiesto, ecco perché sono stato confuso da te dicendo che potrebbero esserci due ragioni diverse .
ameba dice di reintegrare Monica l'

1
@amoeba, il punto è che hai 2 meccanismi diversi. Cioè, hai 2 diversi DAG sottostanti. La manifestazione esteriore può essere simile e la potenza aggiuntiva può essere più o meno, ma il motivo per cui la seconda variabile aiuta a differenziare b / c la relazione della seconda variabile con x1 & y differisce. Se non è chiaro, potrebbe essere necessario porre una nuova domanda; è difficile fare troppo nei commenti.
gung - Ripristina Monica

17

Sembra che la domanda del PO possa essere interpretata in due modi diversi:

  1. Matematicamente, come funziona OLS, in modo tale che l'aggiunta di una variabile indipendente possa cambiare i risultati in modo inaspettato?

  2. In che modo la modifica del mio modello aggiungendo una variabile può cambiare l'effetto di un'altra variabile indipendente nel modello?

Esistono già molte risposte valide per la domanda n. 1. E la domanda n. 2 può essere così ovvia per gli esperti che presumono che il PO debba porre la domanda n. 1. Ma penso che la domanda n. 2 meriti una risposta, che sarebbe qualcosa del tipo:

Cominciamo con un esempio. Supponi di avere l'altezza, l'età, il sesso, ecc. Di un certo numero di bambini e che volevi fare una regressione per prevederne l'altezza.

Si inizia con un modello ingenuo che utilizza il genere come variabile indipendente. E non è statisticamente significativo. (Come è possibile, stai mescolando bambini di 3 anni e adolescenti.)

Quindi aggiungi l'età e all'improvviso non solo è significativa, ma anche il genere. Come potrebbe essere?

Naturalmente, nel mio esempio, puoi vedere chiaramente che l'età è un fattore importante per l'altezza di un bambino / adolescente. Probabilmente il fattore più importante su cui hai i dati. Anche il genere può importare, soprattutto per i bambini più grandi e gli adulti, ma il genere da solo è un modello scarso di quanto sia alto un bambino.

L'età più il genere è un modello ragionevole (sebbene, ovviamente, semplificato) che è adeguato per il compito. Se aggiungi altri dati (interazione di età e sesso, dieta, altezza dei genitori, ecc.) Potresti creare un modello ancora migliore, che ovviamente sarebbe ancora semplificato rispetto all'host di fattori che determinano effettivamente l'altezza di un bambino, ma poi di nuovo tutti i modelli sono versioni semplificate della realtà. (Una mappa del mondo con scala 1: 1 non è troppo utile per un viaggiatore.)

Il tuo modello originale (solo di genere) è troppo semplificato, così semplificato da essere sostanzialmente rotto. Ciò non significa che il genere non sia utile in un modello migliore.

EDIT: aggiunto il suggerimento di gung re: il termine di interazione di età e sesso.


1
+1, nb, età e sesso avranno presumibilmente bisogno anche di un termine di interazione.
gung - Ripristina Monica

1
+1 Questo è un ottimo esempio perché è così semplice e intuitivamente chiaro, e allo stesso tempo si adatta esattamente alla situazione descritta in modo molto più dettagliato ma solo astrattamente da @whuber nella sua risposta accettata qui.
ameba dice Ripristina Monica il

10

Questa discussione ha già tre risposte eccellenti (+1 a ciascuna). La mia risposta è un commento esteso e un'illustrazione al punto sollevato da @gung (che mi ha preso del tempo per capire):

Esistono due possibilità di base: in primo luogo, l'altro IV può assorbire parte della variabilità residua e quindi aumentare la potenza del test statistico del IV iniziale. La seconda possibilità è che tu abbia una variabile soppressore.

Per me, il modo concettuale più chiaro di pensare alla regressione multipla è geometrico. Considera due IV e e un DV . Lasciateli centrati, in modo che non ci occupiamo dell'intercettazione. Quindi se abbiamo punti di dati nel set di dati, tutte e tre le variabili possono essere immaginate come vettori in ; la lunghezza di ciascun vettore corrisponde alla varianza e l'angolo tra due di essi corrisponde alla correlazione. Fondamentalmente, eseguire la regressione OLS multipla non è altro che proiettare la variabile dipendente sul piano attraversato da ex1x2ynRnyx1x2(con la "matrice per cappelli" semplicemente un proiettore). I lettori che non hanno familiarità con questo approccio possono guardare, ad esempio, in The Elements of Statistical Learning , Sezione 3.2 o in molti altri libri.

"Aumento"

La seguente figura mostra entrambe le possibilità elencate da @gung. Considera inizialmente solo la parte blu (ovvero ignora tutte le linee rosse):

Valorizzazione e soppressione

Qui e sono predittori ortogonali che abbracciano un piano (chiamato "piano "). La variabile dipendente viene proiettata su questo piano e la sua OD di proiezione è quella che viene normalmente chiamata . Quindi OD viene scomposto in OF (contributo di IV1) e OE (contributo di IV2). Si noti che OE è molto più lungo di OF.x1x2Xyy^

Ora immagina che non esiste un secondo predittore . La regressione di su comporterebbe anche la proiezione su OF. Ma l'angolo AOC ( ) è vicino a ; un appropriato test statistico concluderebbe che non esiste quasi alcuna associazione tra e e che è quindi significativo.x2yx1α90yx1x1

Quando viene aggiunto , la proiezione OF non cambia (poiché e sono ortogonali). Tuttavia, per verificare se è significativo, ora dobbiamo guardare a ciò che resta inspiegabile dopo . Il secondo predittore spiega una grande porzione di , OE, con solo una parte più piccola EC rimanente inspiegabile. Per chiarezza, ho copiato questo vettore nell'origine e l'ho chiamato OG: si noti che l'angolo GOF ( ) è molto più piccolo di . Può essere facilmente abbastanza piccolo da consentire al test di concludere che è "significativamente più piccolo di ", ovvero chex2x1x2x1x2x2yβα90x1 è ora un predittore significativo.

Un altro modo per dirlo è che il test sta ora confrontando la lunghezza di OF con OG, e non con OC come prima; OF è minuscolo e "insignificante" rispetto a OC, ma abbastanza grande da essere "significativo" rispetto a OG.

Questa è esattamente la situazione presentata da @whuber, @gung e @Wayne nelle loro risposte. Non so se questo effetto abbia un nome standard nella letteratura sulla regressione, quindi lo chiamerò "potenziamento".

repressione

Si noti che in quanto sopra, se allora anche ; in altre parole, il "potenziamento" non può che aumentare il potere di rilevare un predittore significativo, ma se l'effetto di da solo era esattamente zero, rimarrà esattamente zero.α=90β=90x1

Non così nella soppressione.

Immagina di aggiungere a (anziché ) - considera la parte rossa del disegno. Il vettore trova sullo stesso piano , ma non è ortogonale a (il che significa che è correlato a ). Poiché il piano è lo stesso di prima, anche la proiezione OD di rimane la stessa. Tuttavia, la decomposizione di OD in contributi di entrambi i predittori cambia drasticamente: ora OD è scomposto in OF 'e OE'.x3x1x2x3Xx1x3x1Xy

Si noti come OF 'sia molto più lungo di OF. Un test statistico confronterebbe la lunghezza di OF 'con E'C e concluderebbe che il contributo di è significativo. Ciò significa che un predittore che ha una correlazione esattamente zero con risulta essere un predittore significativo. Questa situazione è (molto confusamente, secondo me!) Nota come "soppressione"; vedi qui perché: effetto di soppressione nella regressione: definizione e spiegazione / rappresentazione visiva - @ttnphns illustra la sua grande risposta con molte figure simili alle mie qui (solo meglio).x1x1y


1
Ho trovato la tua risposta come la più facile da capire con l'aiuto dell'interpretazione geometrica. Stupendo!
zsljulius,

1
+1 per un'illustrazione utile. Seguo la tua sezione "miglioramento", ma non la sezione "soppressione". Q1, se , ciò non significherebbe che trova sull'asse , ovvero è un multiplo di , e quindi ? D2, in che modo questa parte è un'illustrazione di "un predittore che ha una correlazione esattamente zero con "? è ancora correlato a in questa sezione. Ho frainteso? y x 1 y x 1 c o r ( x 1 , y ) = 1 x 1 y y x 1α=0yx1yx1cor(x1,y)=1x1yyx1
qoheleth,

@qoheleth Grazie per avermelo notato. Dovrebbe essere in questo paragrafo. Modificherò per risolvere. α=90
ameba dice Ripristina Monica il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.