Che cos'è una variabile soppressore nella regressione multipla e quali potrebbero essere i modi per visualizzare visivamente l'effetto di soppressione (la sua meccanica o la sua evidenza nei risultati)? Vorrei invitare tutti coloro che hanno un pensiero, a condividere.

— ttnphns
fonte

Vedi Friedman, L., e Wall, M. (2005). Viste grafiche di soppressione e multicollinearità nella regressione lineare multipla. The American Statistician , 59 (2), 127-136.

— Ray Koopman,

Ah, è carino e interessante. Grazie mille. Vuoi aggiungere una risposta basata su quello? Sarebbe utile a molti.

— ttnphns

Esistono un certo numero di effetti regressivi frequentemente menzionati che concettualmente sono diversi ma condividono molto in comune se visti puramente statisticamente (vedi ad esempio questo articolo "Equivalenza della mediazione, confusione ed effetto di soppressione" di David MacKinnon et al., O articoli di Wikipedia):

Mediatore: IV che trasmette l'effetto (totalmente o parzialmente) di un altro IV al DV.
Confusione: IV che costituisce o preclude, in tutto o in parte, l'effetto di un altro IV al DV.
Moderatore: IV che, variando, gestisce l'intensità dell'effetto di un altro IV sul DV. Statisticamente, è noto come interazione tra i due IV.
Soppressore: IV (un mediatore o un moderatore concettualmente) che l'inclusione rafforza l'effetto di un altro IV sul DV.

Non discuterò fino a che punto alcuni o tutti sono tecnicamente simili (per questo, leggi il documento sopra linkato). Il mio obiettivo è provare a mostrare graficamente cos'è il soppressore . La definizione di cui sopra che "il soppressore è una variabile che rafforza l'effetto di un altro IV sul DV" mi sembra potenzialmente ampia perché non dice nulla sui meccanismi di tale miglioramento. Di seguito sto discutendo di un meccanismo - l'unico che considero essere la soppressione. Se ci sono anche altri meccanismi (come in questo momento, non ho cercato di meditare su nessuno di questi altri) allora la definizione "ampia" di cui sopra dovrebbe essere considerata imprecisa o la mia definizione di soppressione dovrebbe essere considerata troppo stretta.

Definizione (nella mia comprensione)

Il soppressore è la variabile indipendente che, una volta aggiunta al modello, aumenta l'R-quadrato osservato principalmente a causa della sua contabilizzazione dei residui lasciati dal modello senza di essa, e non a causa della sua stessa associazione con il DV (che è relativamente debole). Sappiamo che l'aumento del R-quadrato in risposta all'aggiunta di un IV è la correlazione della parte quadrata di quel IV in quel nuovo modello. In questo modo, se la correlazione della parte dell'IV con il DV è maggiore (per valore assoluto) rispetto all'ordine zero tra di loro, quel IV è un soppressore. $r$

Quindi, un soppressore per lo più "sopprime" l'errore del modello ridotto, essendo debole come un predittore stesso. Il termine di errore è il complemento della previsione. La previsione è "proiettata su" o "condivisa" tra i IV (coefficienti di regressione), così come il termine di errore ("complemento" ai coefficienti). Il soppressore sopprime in modo disomogeneo tali componenti di errore: maggiore per alcuni IV, minore per altri IV. Per quei IV "i cui" componenti "sopprimono notevolmente, si presta un notevole aiuto di facilitazione aumentando effettivamente i loro coefficienti di regressione .

Effetti di soppressione non forti si verificano spesso e selvaggiamente (un esempio su questo sito). Una forte soppressione viene in genere introdotta consapevolmente. Un ricercatore cerca una caratteristica che deve essere correlata con il DV il più debole possibile e allo stesso tempo correlare con qualcosa nel IV di interesse che è considerato irrilevante, vuoto di predizione, rispetto al DV. Entra nel modello e ottiene un notevole aumento del potere predittivo di quel IV. Il coefficiente del soppressore in genere non viene interpretato.

Potrei riassumere la mia definizione come segue [nella risposta di @ Jake e nei commenti di @ gung]:

Definizione formale (statistica): il soppressore è IV con correlazione della parte maggiore della correlazione di ordine zero (con il dipendente).
Definizione concettuale (pratica): la definizione formale sopra + la correlazione di ordine zero è piccola, in modo che il soppressore non sia esso stesso un valido predittore.

"Suppressor" è il ruolo di un IV solo in un modello specifico , non la caratteristica della variabile separata. Quando vengono aggiunti o rimossi altri IV, il soppressore può improvvisamente smettere di sopprimere o riprendere a sopprimere o cambiare il focus della sua attività di soppressione.

Situazione di regressione normale

La prima immagine sotto mostra una tipica regressione con due predittori (parleremo di regressione lineare). L'immagine viene copiata da qui dove viene spiegata in modo più dettagliato. In breve, i predittori moderatamente correlati (= avente un angolo acuto tra loro) e spaziano nello spazio 2-dimensionale "piano X". La variabile dipendente viene proiettata su di essa ortogonalmente, lasciando la variabile prevista e i residui con st. deviazione pari alla lunghezza di . R-quadrato della regressione è l'angolo tra e $X_1$ $X_2$ $Y$ $Y'$ $e$ $Y$ $Y'$ e i due coefficienti di regressione sono direttamente correlati alle coordinate di inclinazione e , rispettivamente. Questa situazione che ho definito normale o tipico perché sia che correlati a (esiste un angolo obliquo tra ciascuno degli indipendenti e il dipendente) e i predittori competono per la previsione perché sono correlati. $b_1$ $b_2$ $X_1$ $X_2$ $Y$

inserisci qui la descrizione dell'immagine

Situazione di soppressione

È mostrato nella prossima immagine. Questo è come il precedente; tuttavia il vettore ora si dirige in qualche modo lontano dallo spettatore e cambiato considerevolmente la sua direzione. agisce come un soppressore. Nota innanzitutto che difficilmente si correla con . Quindi non può essere un valido predittore stesso. Secondo. Immagina che sia assente e prevedi solo per ; la previsione di questa regressione a una variabile è rappresentata come vettore rosso, l'errore come vettore e il coefficiente è dato da $Y$ $X_2$ $X_2$ $Y$ $X_2$ $X_1$ $Y^*$ $e^*$ $b^*$ coordinata (che è il punto finale di ). $Y^*$

inserisci qui la descrizione dell'immagine

Ora torna al modello completo e nota che è abbastanza correlato con . Così, quando introdotto nel modello, può spiegare una parte considerevole di tale errore del modello ridotto, riducendo a . Questa costellazione: (1) non è un rivale di come predittore ; e (2) è un uomo delle polveri per raccogliere l' imprevedibilità lasciata da , - rende un soppressore $X_2$ $e^*$ $X_2$ $e^*$ $e$ $X_2$ $X_1$ $X_2$ $X_1$ $X_2$ . Come risultato del suo effetto, la forza predittiva di è cresciuta in una certa misura: è più grande di . $X_1$ $b_1$ $b^*$

Bene, perché chiamato soppressore di e come può rafforzarlo quando lo "sopprime"? Guarda la prossima foto. $X_2$ $X_1$

inserisci qui la descrizione dell'immagine

È esattamente lo stesso del precedente. Pensa di nuovo al modello con il singolo predittore . Questo predittore potrebbe ovviamente essere scomposto in due parti o componenti (mostrati in grigio): la parte che è "responsabile" per la previsione di (e quindi coincidente con quel vettore) e la parte che è "responsabile" per l'imprevedibilità (e quindi parallelo a ). È questa seconda parte di - la parte irrilevante per - è soppressa da quando quel soppressore viene aggiunto al modello. La parte irrilevante viene soppressa e quindi, dato che il soppressore non predice $X_1$ $Y$ $e^*$ $X_1$ $Y$ $X_2$ $Y$ comunque, la parte rilevante sembra più forte. Un soppressore non è un predittore ma piuttosto un facilitatore per un altro / altri predittori. Perché compete con ciò che li impedisce di prevedere.

Segno del coefficiente di regressione del soppressore

È il segno della correlazione tra soppressore e variabile di errore lasciato dal modello ridotto (senza soppressore). Nella rappresentazione sopra, è positivo. In altre impostazioni (ad esempio, invertire la direzione di ) potrebbe essere negativo. $e^*$ $X_2$

Soppressione e variazione del segno del coefficiente

L'aggiunta di una variabile che servirà un soppressore potrebbe anche non cambiare il segno di alcuni coefficienti di altre variabili. Gli effetti "Soppressione" e "Cambia segno" non sono la stessa cosa. Inoltre, credo che un soppressore non possa mai cambiare il segno di quei predittori che servono al soppressore. (Sarebbe una scoperta scioccante aggiungere apposta il soppressore per facilitare una variabile e poi trovarla diventata davvero più forte ma nella direzione opposta! Sarei grato se qualcuno potesse mostrarmi che è possibile.)

Soppressione e diagramma di Venn

La normale situazione regressiva è spesso spiegata con l'aiuto del diagramma di Venn.

inserisci qui la descrizione dell'immagine

A + B + C + D = 1, tutta la variabilità L'area B + C + D è la variabilità spiegata dai due IV ( e ), il quadrato R; l'area rimanente A è la variabilità dell'errore. B + C = ; D + C = , correlazioni di ordine zero di Pearson. B e D sono la parte quadrata (semiparziale) correlazioni: B = $Y$ $X_1$ $X_2$ $r_{YX_1}^2$ $r_{YX_2}^2$ ; D= . B / (A + B)= eD / (A + D)= sono le correlazioni parziali quadrate che hanno lostesso significato di basedei coefficienti di regressione standardizzati beta. $r_{Y(X_1.X_2)}^2$ $r_{Y(X_2.X_1)}^2$ $r_{YX_1.X_2}^2$ $r_{YX_2.X_1}^2$

Secondo la definizione di cui sopra (che attenersi a) che un soppressore rappresenta l'IV con maggiore correlazione parte di correlazione di ordine zero, è il soppressore se D zona> D + C zona. Non può essere visualizzato sul diagramma di Venn. (Implicherebbe che C dal punto di vista di non è "qui" e non è la stessa entità di C dal punto di vista di Bisogna forse inventare qualcosa di simile al diagramma di Venn a più strati per confondersi per mostrarlo.) $X_2$ $X_2$ $X_1$

Dati di esempio

         y         x1         x2

1.64454000  .35118800 1.06384500
1.78520400  .20000000 -1.2031500
-1.3635700 -.96106900 -.46651400
 .31454900  .80000000 1.17505400
 .31795500  .85859700 -.10061200
 .97009700 1.00000000 1.43890400
 .66438800  .29267000 1.20404800
-.87025200 -1.8901800 -.99385700
1.96219200 -.27535200 -.58754000
1.03638100 -.24644800 -.11083400
 .00741500 1.44742200 -.06923400
1.63435300  .46709500  .96537000
 .21981300  .34809500  .55326800
-.28577400  .16670800  .35862100
1.49875800 -1.1375700 -2.8797100
1.67153800  .39603400 -.81070800
1.46203600 1.40152200 -.05767700
-.56326600 -.74452200  .90471600
 .29787400 -.92970900  .56189800
-1.5489800 -.83829500 -1.2610800

Risultati della regressione lineare:

$X_2$ $Y$ $-.224$ $X_1$ $.419$ $.538$

$X_1$ $X_1$ $r$ $Y$ $0$

A proposito, la somma delle correlazioni della parte quadrata ha superato il R-quadrato:, .4750^2+(-.2241)^2 = .2758 > .2256che non si verificherebbe nella normale situazione regressiva (vedere il diagramma di Venn sopra).

PS Al termine della mia risposta ho trovato questa risposta (di @gung) con un bel diagramma (schematico) semplice, che sembra essere in accordo con ciò che ho mostrato sopra dai vettori.

— ttnphns
fonte

+6, è davvero grandioso e aiuterà le persone a capire meglio questo argomento in futuro. Stavo per indicare la mia altra risposta (che sono d'accordo è coerente con la tua qui); potrebbe essere utile se le persone vogliono provare a visualizzare queste cose da una prospettiva diversa.

— gung - Ripristina Monica

Un paio di piccoli punti: 1 Per quanto riguarda la tua affermazione che il soppressore non sarà correlato w / Y, b / ce * è correlato w / Y (vedi qui di più), se X1 non è incluso nel modello, X2 dovrebbe essere correlato w / Y (se 'significativamente' dipende da N, ovviamente). 2 Se il segno su x1 potrebbe cambiare (b * -> b1), se X1 è molto vicino a non correlato con Y in assenza del soppressore e con grandi SE, il segno su X1 nel modello ridotto potrebbe essere capovolto per caso da solo a causa di un errore di campionamento, ma questo dovrebbe essere raro e minimo.

— gung - Ripristina Monica

@gung, grazie. (1) Desidero ardentemente le tue (e altre) risposte che potrebbero aiutare a migliorare / correggere le mie. Quindi vieni, come hai tempo, a pubblicare pensieri che hai abbozzato nel tuo commento; (2) per favore non fare queste cose "generose": non devo capitalizzare; altri utenti, quelli "più giovani" potrebbero valerne la pena.

— ttnphns,

Non penso che la mia altra risposta sia "migliore" della tua; in effetti, penso che il tuo sia più completo / generale. Penso che dica alcune cose simili in modo leggermente diverso, quindi potrebbe essere utile per alcuni lettori esaminare entrambi. Se vuoi, potrei mettere insieme un piccolo post che elabora il mio commento sopra, ma non voglio semplicemente copiare e incollare qui l'altra mia risposta, e non ho nulla da aggiungere a quello (o al tuo). Per quanto riguarda la generosità, servirà a guidare l'attenzione / le opinioni su questo thread, il che sarà buono, non potrei premiarlo, ma sembra sciocco.

— gung - Ripristina Monica

Mi piacciono abbastanza questi modi geometrici vettoriali di pensare alle cose. Ti dispiace se ti chiedo come hai disegnato le tue trame? È stato "con il mouse" in qualcosa di simile a MS Paint o utilizzando un software più sofisticato? Ho disegnato cose come queste con il mouse prima e mi chiedevo se esistesse un modo più semplice / più efficiente.

— Jake Westfall,

Ecco un'altra visione geometrica della soppressione, ma piuttosto che essere nello spazio di osservazione come nell'esempio di @ ttnphns, questo è nello spazio variabile , lo spazio in cui vivono i grafici a dispersione di tutti i giorni.

$\hat{y}_i=x_i+z_i$ $x$ $z$ $x$ $z$ $\hat{x}_i=\frac{1}{2}z_i$ $x$ $z$ $\hat{x}_i=-\frac{1}{2}z_i$

Possiamo tracciare la nostra equazione di regressione come piano nello spazio variabile che assomiglia a questo:

aereo

Caso confondente

$x$ $z$ $y$ $x$ $x$ $y$ $x$ $z$ $z$ $x$ $z$ $y$ $x$ $x$ $x$

$x$ $x$ $x$ $x$ $x$

confusione

$x$ $z$ $z$

$x$ $z$ $x$ $x$ $z$ $x$ $z$ $x$ $z$ $x$ $z$ $\hat{x}_i=\frac{1}{2}z_i$ $x$ $z$ $y$ $x$ $\Delta x + \Delta z = 1 + \frac{1}{2} = 1.5$

$z$ $x$ $z$

$x$

Caso di soppressione

$z$ $y$ $x$ $x$ $y$ $x$ $z$ $z$ $x$ $x$ $z$ $z$ $x$ $x$

repressione

$z$ $x$ $\hat{x}_i=-\frac{1}{2}z_i$ $x$ $z$ $y$ $x$ $\Delta x + \Delta z = 1 + -\frac{1}{2} = 0.5$ $z$

Set di dati illustrativi

Se vuoi giocare con questi esempi, ecco un codice R per generare dati conformi ai valori di esempio ed eseguire le varie regressioni.

library(MASS) # for mvrnorm()
set.seed(7310383)

# confounding case --------------------------------------------------------

mat <- rbind(c(5,1.5,1.5),
             c(1.5,1,.5),
             c(1.5,.5,1))
dat <- data.frame(mvrnorm(n=50, mu=numeric(3), empirical=T, Sigma=mat))
names(dat) <- c("y","x","z")

cor(dat)
#           y         x         z
# y 1.0000000 0.6708204 0.6708204
# x 0.6708204 1.0000000 0.5000000
# z 0.6708204 0.5000000 1.0000000

lm(y ~ x, data=dat)
# 
# Call:
#   lm(formula = y ~ x, data = dat)
# 
# Coefficients:
#   (Intercept)            x  
#     -1.57e-17     1.50e+00  

lm(y ~ x + z, data=dat)
# 
# Call:
#   lm(formula = y ~ x + z, data = dat)
# 
# Coefficients:
#   (Intercept)            x            z  
#      3.14e-17     1.00e+00     1.00e+00  
# @ttnphns comment: for x, zero-order r = .671 > part r = .387
#                   for z, zero-order r = .671 > part r = .387

lm(x ~ z, data=dat)
# 
# Call:
#   lm(formula = x ~ z, data = dat)
# 
# Coefficients:
#   (Intercept)            z  
#     6.973e-33    5.000e-01 

# suppression case --------------------------------------------------------

mat <- rbind(c(2,.5,.5),
             c(.5,1,-.5),
             c(.5,-.5,1))
dat <- data.frame(mvrnorm(n=50, mu=numeric(3), empirical=T, Sigma=mat))
names(dat) <- c("y","x","z")

cor(dat)
#           y          x          z
# y 1.0000000  0.3535534  0.3535534
# x 0.3535534  1.0000000 -0.5000000
# z 0.3535534 -0.5000000  1.0000000

lm(y ~ x, data=dat)
# 
# Call:
#   lm(formula = y ~ x, data = dat)
# 
# Coefficients:
#   (Intercept)            x  
#    -4.318e-17    5.000e-01  

lm(y ~ x + z, data=dat)
# 
# Call:
#   lm(formula = y ~ x + z, data = dat)
# 
# Coefficients:
#   (Intercept)            x            z  
#    -3.925e-17    1.000e+00    1.000e+00  
# @ttnphns comment: for x, zero-order r = .354 < part r = .612
#                   for z, zero-order r = .354 < part r = .612

lm(x ~ z, data=dat)
# 
# Call:
#   lm(formula = x ~ z, data = dat)
# 
# Coefficients:
#   (Intercept)            z  
#      1.57e-17    -5.00e-01

— Jake Westfall
fonte

Jake, posso chiederti di fornire la tua risposta con i dati effettivi? Si prega di fornire tre valori di variabili per i due casi considerati. Grazie. (Voglio dire, non complottarlo,

— daglielo e

x

$x$

z

$z$

@ttnphns Okay ho modificato la mia risposta. Fatemi sapere cosa ne pensate.

— Jake Westfall,

Per favore, suggerisci un seme numero casuale concreto nel tuo codice. Vorrei riprodurre esattamente i tuoi risultati qui online: pbil.univ-lyon1.fr/Rweb (poiché non ho R sul mio computer - non sono un utente R).

— ttnphns,

@ttnphns Non è necessario un seed per riprodurre i set di dati di esempio. Qualsiasi set di dati generato utilizzando il codice sopra avrà sempre esattamente i coefficienti di correlazione / regressione e le variazioni mostrate sopra, anche se i valori dei dati particolari possono variare (senza conseguenze). Per chi è contrario all'installazione / utilizzo R, ho caricato due set di dati generati utilizzando il codice sopra che è possibile scaricare e analizzare utilizzando il pacchetto di statistiche di propria scelta. I link sono: (1) psych.colorado.edu/~westfaja/confounding.csv (2) psych.colorado.edu/~westfaja/suppression.csv . Aggiungerò anche un seme, immagino.

— Jake Westfall,

Ecco come penso all'effetto soppressore. Per favore fatemi sapere se sbaglio.

Ecco un esempio di un risultato binario (classificazione, regressione logistica). Possiamo vedere che non c'è alcuna differenza significativa in X1, non c'è alcuna differenza in X2, ma uniamo X1 e X2 (ovvero x1 corretto per x2 o viceversa) e i campioni possono essere classificati quasi perfettamente e quindi le variabili sono ora altamente significative .

— rep_ho
fonte

Puoi stampare i dati corrispondenti alla tua foto, nella tua risposta?

— ttnphns

Puoi dare il voro per i numeri?

— fossekall,

Effetto di soppressione nella regressione: definizione e spiegazione / rappresentazione visiva

Definizione (nella mia comprensione)

Situazione di regressione normale

Situazione di soppressione

Segno del coefficiente di regressione del soppressore

Soppressione e variazione del segno del coefficiente

Soppressione e diagramma di Venn

Dati di esempio

Caso confondente

Caso di soppressione

Set di dati illustrativi