Correlazione significativa in ciascun gruppo ma non significativa nel complesso?


9

Supponiamo di testare la correlazione di Pearson tra variabile ed nei gruppi e . È possibile che la correlazione sia significativa in ciascuno di e , ma non significativa quando i dati di entrambi i gruppi vengono combinati? In questo caso, potresti fornire una spiegazione per questo.y A B ( x , y ) A BXyAB(x,y)AB

Risposte:


21

Sì, è possibile e potrebbe accadere in molti modi. Un esempio ovvio è quando l'appartenenza di A e B è scelta in qualche modo che riflette i valori di xey. Altri esempi sono possibili, ad esempio il commento di @ Macro suggerisce una possibilità alternativa.

Considera l'esempio di seguito, scritto in R. x e y sono le normali variabili standard, ma se le alloco ai gruppi in base ai valori relativi di xey ottengo la valutazione che tu chiami. All'interno del gruppo A e del gruppo B esiste una forte correlazione statisticamente significativa tra x e y, ma se si ignora la struttura di raggruppamento non vi è alcuna correlazione.

inserisci qui la descrizione dell'immagine

> library(ggplot2)
> x <- rnorm(1000)
> y <- rnorm(1000)
> Group <- ifelse(x>y, "A", "B")
> cor.test(x,y)

        Pearson's product-moment correlation

data:  x and y 
t = -0.9832, df = 998, p-value = 0.3257
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 -0.09292  0.03094 
sample estimates:
     cor 
-0.03111 

> cor.test(x[Group=="A"], y[Group=="A"])

        Pearson's product-moment correlation

data:  x[Group == "A"] and y[Group == "A"] 
t = 11.93, df = 487, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.4040 0.5414 
sample estimates:
   cor 
0.4756 

> cor.test(x[Group=="B"], y[Group=="B"])

        Pearson's product-moment correlation

data:  x[Group == "B"] and y[Group == "B"] 
t = 9.974, df = 509, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.3292 0.4744 
sample estimates:
   cor 
0.4043 
> qplot(x,y, color=Group)

+1. Questo è un esempio molto intelligente che non mi era mai venuto in mente.
Macro,

13

Una possibilità è che gli effetti possano andare in direzioni diverse in ciascun gruppo e vengano cancellati quando li aggreghi . Ciò è anche correlato al modo in cui, quando si tralascia un importante termine di interazione in un modello di regressione, gli effetti principali possono essere fuorvianti.

UNyioXio

E(yio|Xio,solroup UN)=1+Xio

B

E(yio|Xio,solroup B)=1-Xio

P(solroup UN)=1-P(solroup B)=p
E(yio|Xio)

E(yio|Xio)=E(E(yio|Xio,solroup))=p(1+Xio)+(1-p)(1-Xio)=p+pXio+1-Xio-p+pXio=1-Xio(2p-1)

p=1/2E(yio|Xio)=1XioXioyio

p

Nota: con errori normali, la significatività di un coefficiente di regressione lineare equivale alla significatività della correlazione di Pearson, quindi questo esempio evidenzia una spiegazione per ciò che stai vedendo.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.