Come può la somma di due variabili spiegare più varianza rispetto alle singole variabili?


13

Sto ottenendo alcuni risultati sconcertanti per la correlazione di una somma con una terza variabile quando i due predittori sono correlati negativamente. Cosa sta causando questi risultati sconcertanti?

Esempio 1: correlazione tra la somma di due variabili e una terza variabile

Considera la formula 16.23 a pagina 427 del testo di Guildford del 1965, mostrato di seguito.

Risultati perplessi: se entrambe le variabili correlano .2 alla terza variabile e -7 tra loro, la formula risulta in un valore di .52. Come può la correlazione del totale con la terza variabile essere .52 se le due variabili sono correlate solo solo .2 con la terza variabile?

Esempio 2: qual è la correlazione multipla tra due variabili e una terza variabile?

Considera la formula 16.1 a pagina 404 del testo di Guildford del 1965 (mostrato sotto).

Scoperta perplessa: stessa situazione. Se entrambe le variabili correlano .2 con la terza variabile e correlano -.7 l'una con l'altra, la formula si traduce in un valore di .52. Come può la correlazione del totale con la terza variabile essere .52 se le due variabili sono correlate solo solo .2 con la terza variabile?

Ho provato una rapida simulazione Monte Carlo e questo conferma i risultati delle formule di Guilford.

Ma se i due predittori predicono ciascuno il 4% della varianza della terza variabile, come può una somma di essi prevedere 1/4 della varianza?

correlazione della somma di due variabili con una terza variabile correlazione multipla di due variabili con una terza variabile

Fonte: Statistica fondamentale in psicologia e istruzione, 4a ed., 1965.

UNA PRECISAZIONE

La situazione con cui mi sto occupando prevede la previsione delle prestazioni future delle singole persone sulla base della misurazione delle loro capacità.

I due diagrammi di Venn qui sotto mostrano la mia comprensione della situazione e hanno lo scopo di chiarire la mia perplessità.

Questo diagramma di Venn (Fig. 1) riflette l'ordine zero r = .2 tra x1 e C. Nel mio campo ci sono molte variabili predittive che predicono modestamente un criterio.

Fig. 1

Questo diagramma di Venn (Fig. 2) riflette due predittori, x1 e x2, ciascuno dei quali predice C a r = .2 e i due predittori sono negativamente correlati, r = -. 7.

Fig.2

Non riesco a immaginare una relazione tra i due predittori r = .2 che li farebbero prevedere insieme il 25% della varianza di C.

Cerco aiuto per comprendere la relazione tra x1, x2 e C.

Se (come suggerito da alcuni in risposta alla mia domanda) x2 funge da variabile soppressore per x1, quale area nel secondo diagramma di Venn viene soppressa?

Se un esempio concreto sarebbe utile, possiamo considerare x1 e x2 come due abilità umane e C come 4 anni di college GPA, 4 anni dopo.

Ho difficoltà a immaginare come una variabile soppressore potrebbe causare l'ampliamento dell'8% dei due r = .2 ordine zero r e spiegare il 25% della varianza di C. Un esempio concreto sarebbe una risposta molto utile.


C'è una vecchia regola empirica nelle statistiche secondo cui la varianza della somma di un insieme di variabili indipendenti è uguale alla somma delle loro varianze.
Mike Hunter,

@DJohnson. In che modo il tuo commento si collega alla domanda posta?
Joel W.

Scusa, non capisco la domanda. Per me, è ovvio come si collega. Inoltre, è un commento che non è né idoneo per la generosità né che richiede un'elaborazione più approfondita.
Mike Hunter,

1
@DJohnson. In che modo il tuo commento si collega alla domanda posta? Per me NON è ovvio come si rapporta.
Joel W.

2
La tua domanda sul significato di N viste potrebbe ottenere una risposta migliore sul sito Meta CV.
mdewey,

Risposte:


3

Questo può accadere quando i due predittori contengono entrambi un grande fattore di disturbo, ma con segno opposto, quindi quando li sommi il fastidio si annulla e si ottiene qualcosa di molto più vicino alla terza variabile.

Illustriamo con un esempio ancora più estremo. Supponiamo che siano variabili casuali normali standard indipendenti. Adesso mollaX,YN(0,1)

A=X

B=X+0.00001Y

Supponi che sia la tua terza variabile, A , B siano i tuoi due predittori e X sia una variabile latente di cui non sai nulla. La correlazione di A con Y è 0 e la correlazione di B con Y è molto piccola, vicina a 0,00001. * Ma la correlazione di A + B con Y è 1.YA,BXA+BY

* C'è una piccola correzione per la deviazione standard di B che è un po 'più di 1.


Questo tipo di situazione si presenta mai nelle scienze sociali?
Joel W.

1
Nel gergo delle scienze sociali, questo è fondamentalmente solo un effetto forte che confonde un effetto debole in un modo particolare. Non sono un esperto di scienze sociali, ma non riesco a immaginare che sia difficile trovare un esempio di questo.
Paul,

Potresti avere altri esempi oltre alle scienze fisiche?
Joel W.

La relazione che descrivi può essere mostrata in un diagramma di Venn?
Joel W.

Personalmente non troverei utile un diagramma di Venn qui, ma se è necessario, disegnerei B come un rettangolo, quindi lo dividerei in due sub-rettangoli, uno grosso e grosso A e uno piccolo e magro Y. La somma A e B è annullando la grande parte A e lasciando la piccola parte Y.
Paul

10

Può essere utile concepire le tre variabili come combinazioni lineari di altre variabili non correlate. Per migliorare la nostra comprensione possiamo descriverli geometricamente, lavorare con loro algebricamente e fornire descrizioni statistiche a nostro piacimento.

Si consideri, poi, tre incorrelati a media zero, variabili unità varianza , Y , e Z . Da questi costruire il seguente:XYZ

U=X,V=(7X+51Y)/10;W=(3X+17Y+55Z)/75.

Spiegazione geometrica

Il seguente grafico riguarda tutto ciò che serve per comprendere le relazioni tra queste variabili.

Figure

Questo diagramma pseudo-3D mostra , V , W e U + V nel sistema di coordinate X , Y , Z. Gli angoli tra i vettori riflettono le loro correlazioni (i coefficienti di correlazione sono i coseni degli angoli). La grande correlazione negativa tra U e V si riflette nell'angolo ottuso tra di loro. Le piccole correlazioni positive di U e V con W si riflettono nella loro quasi perpendicolarità. Tuttavia, la somma di U e V rientra direttamente sotto WUVWU+VX,Y,ZUVUVWUVW, formando un angolo acuto (circa 45 gradi): c'è una correlazione positiva inaspettatamente alta.


Calcoli Algebrici

Per chi desidera più rigore, ecco l'algebra per eseguire il backup della geometria nella grafica.

Tutte quelle radici quadrate sono lì per far sì che anche , V e W abbiano varianze unitarie: ciò rende facile calcolare le loro correlazioni, perché le correlazioni saranno uguali alle covarianze. PerciòUVW

Cor(U,V)=Cov(U,V)=E(UV)=E(51XY7X2)/10=7/10=0.7

perché e Y non sono correlati. Allo stesso modo,XY

Cor(U,W)=3/75=1/5=0.2

e

Cor(V,W)=(73+1517)/(1075)=1/5=0.2.

Infine,

Cor(U+V,W)=Cov(U+V,W)Var(U+V)Var(W)=1/5+1/5Var(U)+Var(V)+2Cov(U,V)=2/51+12(7/10)=2/53/50.5164.

Di conseguenza queste tre variabili hanno le correlazioni desiderate.


Spiegazione statistica

Ora possiamo vedere perché tutto funziona così:

  • e V hanno una forte correlazione negativa di - 7 / 10 poiché V è proporzionale al negativo di U più un piccolo "rumore" sotto forma di un piccolo multiplo di Y .UV7/10VUY

  • e W hanno debole correlazione positiva di 1 / 5 perché W comprende un piccolo multiplo di U più un sacco di rumore sotto forma di multipli di Y e Z .UW1/5WUYZ

  • e W hanno debole correlazione positiva di 1 / 5 perché W (moltiplicata perVW1/5W , che non cambierà alcuna correlazione) è la somma di tre cose:75

    • , che è correlato positivamente conV;17YV
    • , la cuicorrelazionenegativaconV3XV riduce la correlazione generale;
    • e un multiplo di che introduce molto rumore.Z
  • Tuttavia, è correlata positivamente con piuttostoWperché è un multiplo di quella parte diWche non comprendeZ.U+V=(3X+51Y)/10=3/100(3X+17Y)WWZ


C'è un modo per mostrarlo in un diagramma di Venn? Nonostante la matematica, non vedo ancora la logica della somma di due variabili che spiega il 25 +% della varianza di una terza variabile quando ciascuna delle due variabili che vanno nella somma prevede ma il 4% della varianza di quella terza variabile . Come può l'8% di varianza spiegata diventare il 25% di varianza spiegata semplicemente aggiungendo le due variabili?
Joel W.

Inoltre, ci sono applicazioni pratiche di questo strano fenomeno?
Joel W.

Se un diagramma di Venn non è appropriato per rappresentare la varianza spiegata, puoi dirmi perché è inappropriato?
Joel W.

@JoelW. La bella risposta qui tocca il perché i diagrammi di Venn non hanno il compito di illustrare questo fenomeno (verso la fine della risposta): stats.stackexchange.com/a/73876/5829
Jake Westfall,

Joel, i Cohen usarono un diagramma simile a Venn che chiamarono "Ballantine" per analizzare le varianze. Vedi ad esempio ww2.amstat.org/publications/jse/v10n1/kennedy.html . Per quanto riguarda le applicazioni pratiche, dovresti porre la domanda opposta: quali applicazioni di varianza e decomposizioni di varianza non sono pratiche?
whuber

5

Un altro semplice esempio:

  • Sia zN(0,1)
  • Sia x1N(0,1)
  • Sia (quindi z = x 1 + x 2 )x2=zx1z=x1+x2

Poi:

  • Corr(z,x1)=0
  • Corr(z,x2).7
  • Corr(z,x1+x2)=1

Geometricamente, ciò che sta accadendo è come nella grafica di WHuber. Concettualmente, potrebbe assomigliare a questo: enter image description here

E[XY]

x1zθ

  • Corr(z,x1)=cosθzx1=0θz,x1=π2
  • Corr(z,x2)=cosθzx2.7θz,x2=π4
  • Corr(z,x1+x2)=cosθz,x1+x2=1θz,x1+x2=0

zx1x2zx1x1x2x1x2


(+1) Nice example!
user795305

Please explain the premises of your answer. After positing z = x1 + x2, why say “then Corr(z,x1)=0”? Are you saying that Corr(z,x1)=0 follows from your first Let statement, or is the correlation of zero an additional assumption? If it is an additional assumption, why does the situation in the original question require that additional assumption?
Joel W.

@JoelW. I'm saying z is a random variable following the standard normal distribution and x1 is an independent random variable that also follows the standard normal distribution. z and x1 are independent, hence their correlation is precisely 0. Then compute zx1 and call that x2.
Matthew Gunn

@MatthewGunn. Your third Let says z=x1+x2. That seems to violate your first two Lets that say that z and x1 are independent.
Joel W.

1
@JoelW. I do not agree because that statement is not true. Seeing z=x1+x2 implies nothing about independence between z and x1.
Matthew Gunn

3

Addressing your comment:

Despite the math, I still do not see the logic of the sum of two variables explaining 25+% of the variance of a third variable when each off the two variables that go into the sum predict but 4% of the variance of that third variable. How can 8% explained variance become 25% explained variance just by adding the two variables?

The issue here seems to be the terminology "variance explained". Like a lot of terms in statistics, this has been chosen to make it sound like it means more than it really does.

Here's a simple numerical example. Suppose some variable Y has the values

y=(6,7,4,8,9,6,6,3,5,10)

and U is a small multiple of Y plus some error R. Let's say the values of R are much larger than the values of Y.

r=(20,80,100,90,50,70,40,30,40,60)

and U=R+0.1Y, so that

u=(19.4,79.3,100.4,90.8,50.9,70.6,40.6,30.3,40.5,61.0)

and suppose another variable V=R+0.1Y so that

v=(20.6,80.7,99.6,89.2,49.1,69.4,39.4,29.7,39.5,59.0)

Then both U and V have very small correlation with Y, but if you add them together then the r's cancel and you get exactly 0.2Y, which is perfectly correlated with Y.

In terms of variance explained, this makes perfect sense. Y explains a very small proportion of the variance in U because most of the variance in U is due to R. Similarly, most of the variance in V is due to R. But Y explains all of the variance in U+V. Here is a plot of each variable:

Plot of each of the variables

However, when you try to use the term "variance explained" in the other direction, it becomes confusing. This is because saying that something "explains" something else is a one-way relationship (with a strong hint of causation). In everyday language, A can explain B without B explaining A. Textbook authors seem to have borrowed the term "explain" to talk about correlation, in the hope that people won't realise that sharing a variance component isn't really the same as "explaining".


@naught101 has created some figures to illustrate your variables, Flounderer. You might want to see if including them appeals to you.
gung - Reinstate Monica

Sure, edit it however you like. I can't actually view imgur at work but I'm sure it will be fine!
Flounderer

I rejected the suggestion, b/c I didn't see that he had contacted you here. You can approve it by going to the suggested edit queue, though.
gung - Reinstate Monica

The example you provide is interesting, if carefully crafted, but the situation I presented is more general (with the numbers not carefully chosen) and based on 2 variables N(0,1). Even if we change the terminology from "explains" to "shared", the question remains. How can 2 random variables, each with 4% shared variance with a third variable, be combined in terms of a simple sum that, according to the formula, has 25% shared variance with a third variable? Also, if the goal is prediction, are there any real-world practical applications of this strange increase in shared variance?
Joel W.

Well, anywhere in electronics when you have (loud noise + weak signal) + (-loud noise) = weak signal, you would be applying this. For example, noise-cancelling headphones.
Flounderer
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.