Differenza tra i presupposti alla base di una correlazione e una pendenza test di significatività


21

La mia domanda è nata da una discussione con @whuber nei commenti di un'altra domanda .

Nello specifico, il commento di @whuber è stato il seguente:

Uno dei motivi per cui potrebbe sorprenderti è che le ipotesi alla base di un test di correlazione e di un test di pendenza di regressione sono diverse - quindi anche quando comprendiamo che la correlazione e la pendenza misurano davvero la stessa cosa, perché i loro valori p dovrebbero essere gli stessi? Ciò mostra come questi problemi vanno più in profondità rispetto al semplice se r e β debbano essere numericamente uguali.

Questo mi ha fatto pensare e mi sono imbattuto in una varietà di risposte interessanti. Ad esempio, ho trovato questa domanda " Ipotesi del coefficiente di correlazione " ma non riesco a vedere come questo chiarirebbe il commento sopra.

Ho trovato risposte più interessanti sul rapporto di di Pearson r e la pendenza β in una semplice regressione lineare (vedi qui e qui , per esempio), ma nessuno di loro sembra di rispondere a ciò che @whuber si riferiva al suo commento (almeno non apparente me).

Domanda 1: quali sono i presupposti alla base di un test di correlazione e di un test di pendenza della regressione?

Per la mia seconda domanda considerare le seguenti uscite in R :

model <- lm(Employed ~ Population, data = longley)
summary(model)

Call:
lm(formula = Employed ~ Population, data = longley)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.4362 -0.9740  0.2021  0.5531  1.9048 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8.3807     4.4224   1.895   0.0789 .  
Population    0.4849     0.0376  12.896 3.69e-09 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

E l'output di cor.test() funzione:

with(longley, cor.test(Population, Employed))

    Pearson's product-moment correlation

data:  Population and Employed
t = 12.8956, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.8869236 0.9864676
sample estimates:
      cor 
0.9603906 

Come si può vedere dall'output lm()e cov.test()dall'output, il coefficiente di correlazione di Pearson e la stima della pendenza ( βr ) sono ampiamente diversi, rispettivamente 0,96 vs 0,485, ma il valore t e i valori p sono gli stessi.β1

Poi ho anche provato a vedere se sono in grado di calcolare il valore t per e β 1 , che sono gli stessi nonostante r e β 1 siano diversi. Ed è lì che rimango bloccato, almeno perrβ1rβ1 :r

Calcola la pendenza ( ) in una semplice regressione lineare usando la somma totale dei quadrati di x e yβ1xy :

x <- longley$Population; y <- longley$Employed
xbar <- mean(x); ybar <- mean(y)
ss.x <- sum((x-xbar)^2)
ss.y <- sum((y-ybar)^2)
ss.xy <- sum((x-xbar)*(y-ybar))

Calcola la stima dei minimi quadrati della pendenza di regressione, (ne è una prova nella prima edizione del libro R di Crawley , pagina 393):β1

b1 <- ss.xy/ss.x                        
b1
# [1] 0.4848781

Calcola l'errore standard per :β1

ss.residual <- sum((y-model$fitted)^2)
n <- length(x) # SAMPLE SIZE
k <- length(model$coef) # NUMBER OF MODEL PARAMETER (i.e. b0 and b1)
df.residual <- n-k
ms.residual <- ss.residual/df.residual # RESIDUAL MEAN SQUARE
se.b1 <- sqrt(ms.residual/ss.x)
se.b1
# [1] 0.03760029

E il valore t e il valore p per :β1

t.b1 <- b1/se.b1
p.b1 <- 2*pt(-abs(t.b1), df=n-2)
t.b1
# [1] 12.89559
p.b1
# [1] 3.693245e-09

Quello che non so a questo punto, e questa è la domanda 2 , è, come calcolare lo stesso valore t usando invece di β 1 (forse in baby-step)?rβ1

Suppongo che, poiché cor.test()l'ipotesi alternativa è se la vera correlazione non è uguale a 0 (vedi l' cor.test()output sopra), mi aspetterei qualcosa di simile al coefficiente di correlazione di Pearson diviso per "l'errore standard del coefficiente di correlazione di Pearson" (simile alsopra)?! Ma quale sarebbe questo errore standard e perché?rb1/se.b1

Forse questo ha qualcosa a che fare con il suddetto assunzioni di cui alla base di un test di correlazione e un test di pendenza della regressione ?!

EDIT (27-lug-2017): Mentre @whuber ha fornito una spiegazione molto dettagliata per la domanda 1 (e in parte la domanda 2 , vedi commenti sotto la sua risposta), ho fatto qualche ulteriore scavo e ho scoperto che questi due post ( qui e qui ) fanno mostra un errore standard specifico per , che funziona bene per rispondere alla domanda 2 , ovvero riprodurre il valore t dato r :rr

r <- 0.9603906
# n <- 16
r.se <- sqrt((1-r^2)/(n-2))
r/r.se
# [1] 12.8956

2
È lo stesso test o almeno un test equivalente. Se si rifiuta l'ipotesi che la correlazione non sia zero, il test rifiuta anche l'ipotesi che la pendenza non sia zero.
Michael R. Chernick,

6
@Michael Right - ma ci sono molti potenziali modelli qui e sono sorprendentemente diversi. Uno di questi è un modello standard per la correlazione, di cui il più semplice è che i dati sono un campione di una distribuzione normale bivariata sconosciuta. Un'altra è una versione di un modello OLS per la regressione di contro X - in due versioni, regressori fissi e regressori casuali. Un'altra inverte i ruoli di X e Y . Se hai la sensazione che questi dovrebbero produrre gli stessi valori di p per test di ipotesi comparabili, questo è probabilmente solo attraverso un'ampia familiarità, ma non è intuitivamente ovvio! YXXY
whuber

1
@whuber Visto che questa Q è così ben votata ma manca di una risposta soddisfacente, ho iniziato una taglia che è terminata prima di oggi; è nel periodo di grazia ora. È stata pubblicata una nuova risposta che spiega bene i calcoli di correlazione come pendenza, ma afferma che non vi è alcuna differenza nelle ipotesi, contrariamente alla tua affermazione citata. La mia generosità verrà automaticamente assegnata a questa nuova risposta, a meno che non appaia un'altra. Ti sto facendo sapere nel caso in cui valuteresti di pubblicare anche la tua risposta.
ameba dice Ripristina Monica il

1
@amoeba Grazie; Non avevo notato la generosità. Ho pubblicato un resoconto parziale di ciò che avevo in mente quando ho scritto l'osservazione che ha suscitato questa domanda. Spero che rappresenti alcuni progressi nella direzione che hai suggerito.
whuber

Risposte:


5

introduzione

Questa risposta affronta la motivazione di fondo per questa serie di domande:

Quali sono i presupposti alla base di un test di correlazione e di un test di pendenza della regressione?

Alla luce dello sfondo fornito nella domanda, tuttavia, vorrei suggerire di espandere un po 'questa domanda: esploriamo i diversi scopi e concezioni di correlazione e regressione.

La correlazione viene in genere invocata in situazioni in cui

  • I dati sono bivariati: esattamente due valori distinti di interesse sono associati a ciascun "soggetto" o "osservazione".

  • I dati sono osservativi: nessuno dei valori è stato impostato dallo sperimentatore. Entrambi sono stati osservati o misurati.

  • L'interesse sta nell'identificare, quantificare e testare un qualche tipo di relazione tra le variabili.

La regressione è usata dove

  • I dati sono bivariati o multivariati: potrebbero esserci più di due distinti valori di interesse.

  • L'interesse si concentra sulla comprensione di ciò che si può dire su un sottoinsieme delle variabili - le variabili "dipendenti" o "risposte" - in base a ciò che si potrebbe sapere sull'altro sottoinsieme - le variabili "indipendenti" o "regressori".

  • Valori specifici dei regressori potrebbero essere stati impostati dallo sperimentatore.

Questi obiettivi e situazioni differenti portano ad approcci distinti. Poiché questo thread è preoccupato per le loro somiglianze, concentriamoci sul caso in cui sono più simili: i dati bivariati. In entrambi i casi, tali dati saranno in genere modellati come realizzazioni di una variabile casuale . Molto in generale, entrambe le forme di analisi cercano caratterizzazioni relativamente semplici di questa variabile.(X,Y)

Correlazione

Credo che l '"analisi di correlazione" non sia mai stata definita in generale. Dovrebbe essere limitato al calcolo dei coefficienti di correlazione o potrebbe essere considerato più ampiamente come comprendente PCA, analisi dei cluster e altre forme di analisi che mettono in relazione due variabili? Indipendentemente dal fatto che il tuo punto di vista sia circoscritto o ampio, forse accetti che si applichi la seguente descrizione:

La correlazione è un'analisi che fa ipotesi sulla distribuzione di , senza privilegiare nessuna delle variabili, e utilizza i dati per trarre conclusioni più specifiche su tale distribuzione.(X,Y)

Ad esempio, potresti iniziare supponendo che abbia una distribuzione normale bivariata e utilizzare il coefficiente di correlazione di Pearson dei dati per stimare uno dei parametri di tale distribuzione. Questa è una delle concezioni più strette (e più antiche) di correlazione.(X,Y)

Come altro esempio, potresti supporre che possa avere qualsiasi distribuzione e utilizzare un'analisi cluster per identificare k "centri". Si potrebbe interpretarlo come l'inizio di una risoluzione della distribuzione di ( X , Y ) in una miscela di distribuzioni univodali bivariate, una per ciascun cluster.(X,Y)k(X,Y)

Una cosa comune a tutti questi approcci è un trattamento simmetrico di e Y : nessuno dei due è privilegiato rispetto all'altro. Entrambi svolgono ruoli equivalenti.XY

Regressione

La regressione gode di una definizione chiara e universalmente compresa:

La regressione caratterizza la distribuzione condizionale di (la risposta) data X (il regressore).YX

Storicamente, la regressione affonda le sue radici alle scoperta di Galton (C 1885). Che bivariate dati normali godono di una linea di regressione: l'aspettativa condizionale di Y è una funzione lineare di X . Ad un polo dello spettro speciale generale è Ordinary Least Squares (OLS) regressione in cui la distribuzione condizionata di Y viene considerata normale ( β 0 + β 1 X , σ 2 ) per i parametri fissi β 0 , β 1 , e σ(X,Y)YXY(β0+β1X,σ2)β0,β1,σ da stimare dai dati.

Alla fine estremamente generale di questo spettro ci sono modelli lineari generalizzati, modelli additivi generalizzati e altri simili che rilassano tutti gli aspetti di OLS: l'attesa, la varianza e persino la forma della distribuzione condizionale di possono variare in modo non lineare con X . Il concetto che sopravvive tutta questa generalizzazione è che rimane interesse focalizzati sulla comprensione di come Y dipende X . Quell'asimmetria fondamentale è ancora lì.YXYX

Correlazione e regressione

Una situazione molto speciale è comune ad entrambi gli approcci e si riscontra frequentemente: il modello normale bivariato. In questo modello, un diagramma a dispersione di dati assumerà una classica forma a "calcio", ovale o sigaro: i dati sono distribuiti ellitticamente attorno a una coppia di assi ortogonali.

  • Un'analisi di correlazione si concentra sulla "forza" di questa relazione, nel senso che una diffusione relativamente piccola attorno all'asse maggiore è "forte".

  • Come osservato sopra, la regressione di su X (e, ugualmente, la regressione di X su Y ) è lineare : l'attesa condizionale della risposta è una funzione lineare del regressore.YXXY

(Vale la pena riflettere sulle chiare differenze geometriche tra queste due descrizioni: illuminano le differenze statistiche sottostanti.)

Dei cinque parametri normali bivariati (due medie, due spread e un altro che misura la dipendenza tra le due variabili), uno è di interesse comune: il quinto parametro, . È direttamente (e semplicemente) correlato aρ

  1. Il coefficiente di nella regressione di Y su X .XYX

  2. Il coefficiente di nella regressione di X su Y .YXY

  3. Le variazioni condizionali in una delle regressioni e ( 2 ) .(1)(2)

  4. Gli spread di attorno agli assi di un'ellisse (misurati come varianze).(X,Y)

Un'analisi di correlazione concentra su , senza distinguere i ruoli di X e Y .(4)XY

Un'analisi di regressione si concentra sulle versioni da a ( 3 ) appropriate alla scelta del regressore e delle variabili di risposta.(1)(3)

In entrambi i casi, l'ipotesi occupa un ruolo particolare: indica alcuna correlazione così come nessuna variazione di Y rispetto a X . Perché (in questo caso più semplice) sia il modello di probabilità e l'ipotesi nulla sono comuni a correlazione e la regressione, dovrebbe essere una sorpresa che entrambi i metodi condividono un interesse per le stesse statistiche (che si chiamino " R " o " β "); che le distribuzioni campionarie nulle di tali statistiche siano le stesse; e (quindi) che i test di ipotesi possono produrre valori p identici.H0:ρ=0YXrβ^

Questa applicazione comune, che è la prima che qualcuno impara, può rendere difficile riconoscere quanto siano differenti la correlazione e la regressione nei loro concetti e obiettivi. È solo quando veniamo a conoscenza delle loro generalizzazioni che vengono scoperte le differenze sottostanti. Sarebbe difficile interpretare un GAM come dare molte informazioni sulla "correlazione", così come sarebbe difficile inquadrare un'analisi dei cluster come una forma di "regressione". Le due sono diverse famiglie di procedure con obiettivi diversi, ciascuna utile a sé stante se applicata in modo appropriato.


Spero che questa recensione sia piuttosto generale e un po 'vaga ha illuminato alcuni dei modi in cui "queste questioni andare più a fondo semplicemente se e β dovrebbero essere numericamente uguali." Un apprezzamento di queste differenze mi ha aiutato a capire quali varie tecniche stanno tentando di realizzare, oltre a farne un uso migliore per risolvere problemi statistici.rβ^


Grazie whuber per questa risposta perspicace! Come menzionato nei commenti alla risposta di @ matt-barstead, ho riscontrato un errore standard per , per quanto riguarda la mia seconda domanda. Quello che non capisco bene è come è derivato e perché (simile alla domanda qui )r
Stefan

1
r(X,Y)r

Lascerò questa lattina di vermi per qualche altra volta quindi :) Grazie per il tuo commento @whuber!
Stefan,

3

Come suggerisce la risposta di @ whuber, ci sono un certo numero di modelli e tecniche che possono rientrare nell'ambito di correlazione che non hanno analoghi chiari in un mondo di regressione e viceversa. Tuttavia, nel complesso quando le persone pensano, confrontano e contrastano la regressione e la correlazione, in realtà stanno prendendo in considerazione due facce della stessa medaglia matematica (in genere una regressione lineare e una correlazione di Pearson). Se debbano avere una visione più ampia di entrambe le famiglie di analisi è una questione di dibattito a parte, e quella con cui i ricercatori dovrebbero lottare almeno minimamente.

xy(x,y)

In questa visione ristretta della regressione e della correlazione, le seguenti spiegazioni dovrebbero aiutare a chiarire come e perché le loro stime, errori standard e valori p sono essenzialmente varianti l'una dell'altra.

Dato datche il longleyset di dati è il set di dati sopra indicato, otteniamo quanto segue per cor.test. (Non c'è nulla di nuovo qui a meno che tu non abbia saltato la domanda sopra e sei andato direttamente a leggere le risposte):

> cor.test(dat$Employed, dat$Population)

    Pearson's product-moment correlation

data:  dat$Employed and dat$Population
t = 12.896, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.8869236 0.9864676
sample estimates:
      cor 
0.9603906 

E quanto segue per il modello lineare (anche come sopra):

> summary(lm(Employed~Population, data=dat))

Call:
lm(formula = Employed ~ Population, data = dat)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.4362 -0.9740  0.2021  0.5531  1.9048 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8.3807     4.4224   1.895   0.0789 .  
Population    0.4849     0.0376  12.896 3.69e-09 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

Ora per il nuovo componente a questa risposta. Innanzitutto, crea due nuove versioni standardizzate delle variabili Employede Population:

> dat$zEmployed<-scale(dat$Employed)
> dat$zPopulation<-scale(dat$Population)

Secondo, rieseguire la regressione:

> summary(lm(zEmployed~zPopulation, data=dat))

Call:
lm(formula = zEmployed ~ zPopulation, data = dat)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.40894 -0.27733  0.05755  0.15748  0.54238 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -2.956e-15  7.211e-02     0.0        1    
zPopulation  9.604e-01  7.447e-02    12.9 3.69e-09 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2884 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

Ecco! La pendenza di regressione è uguale al coefficiente di correlazione dall'alto. La risposta alla domanda 1 è quindi che i presupposti per entrambi i test sono essenzialmente gli stessi:

  1. Indipendenza delle osservazioni
  2. xy
  3. eN(0,σe2)
  4. I termini di errore sono distribuiti in modo simile a ciascun valore previsto della linea di regressione (ovvero omogeneità della varianza dell'errore)

xy

Per la domanda 2 , iniziamo con l'errore standard della formula della pendenza di regressione usata sopra (implicita nel codice R - ma dichiarata di seguito):

b=(XiX¯)(YiY¯)(XiX¯)2

bVar(b)Xi=(XiX¯)Yi=(YiY¯)

Var(b)=Var((XiYi)(Xi2))

Da quella formula è possibile ottenere l'espressione seguente, sintetica e più utile ( vedere questo collegamento per istruzioni dettagliate ):

Var(b)=σe2(XiX¯)2
SE(b)=Var(b)=σe2(XiX¯)2

σe2

Penso che scoprirai che se risolvi questa equazione per i modelli lineari non standardizzati e standardizzati (cioè di correlazione) otterrai gli stessi valori p e t per le tue pendenze. Entrambi i test si basano sulla stima ordinaria dei minimi quadrati e fanno le stesse ipotesi. In pratica, molti ricercatori saltano il controllo delle ipotesi sia per i semplici modelli di regressione lineare sia per le correlazioni, anche se penso che sia ancora più prevalente farlo per le correlazioni poiché molte persone non le riconoscono come casi speciali di semplici regressioni lineari. (Nota: questa non è una buona pratica da adottare)


2
Questa risposta non affronta la citazione di @whuber riprodotta nella domanda, in cui afferma che le ipotesi sono diverse. Intendi dire che questa affermazione era sbagliata?
ameba dice Ripristina Monica il

Se segui queste equazioni, la correlazione di Pearson ha gli stessi presupposti di base di una semplice regressione lineare. Posso modificare la mia risposta per dirlo più chiaramente.
Matt Barstead,

1
Grazie per la tua risposta! Ero consapevole che il coefficiente di correlazione è uguale alla pendenza di regressione quando standardizzato. Questo è stato mostrato nei link 3 e 4 nella mia domanda. Ero anche a conoscenza delle ipotesi generali che hai elencato ed è per questo che il commento di @whuber mi ha fatto pensare, portando quindi a questa domanda. Avrei dovuto dichiarare esplicitamente quali ipotesi sono a conoscenza - le mie scuse.
Stefan,

1
In realtà ho fatto ulteriori ricerche e ho scoperto che questi due post ( qui e qui ) mostrano un errore standard specifico perr, che funziona bene per rispondere alla mia seconda domanda che è quella di riprodurre il valore t dato r: r <- 0.9603906; n <- 16; r/(sqrt((1-r^2)/(n-2))) # 12.8956.
Stefan,


0

Per quanto riguarda la domanda 2

come calcolare lo stesso valore t usando r invece di β1

Non credo sia possibile calcolare il t statistica dal r valore, tuttavia la stessa deduzione statistica può essere derivata dal valore F statistica, in cui l'ipotesi alternativa è che il modello non spiega i dati, e questo può essere calcolato da r.

F=r2/K(1-r2)/(n-K)

Con K=2 parametri nel modello e n=dun'tun'poiontS

Con la restrizione che

... il rapporto F non può essere utilizzato quando il modello non ha intercettazione

Fonte: test di ipotesi nel modello di regressione multipla


1
I looked back at the original post to identify what question you might be responding to. I found two, numbered 1 (about assumptions) and 2 (about calculating a t-value), but neither seems to be addressed by this answer. Could you tell us more explicitly what question you are answering?
whuber

1
Thank you for the clarification: the connection to the question is now apparent. I interpret the question differently, though. I take it to be asking how the p-value for the correlation analysis (that is, as based on the sample correlation coefficient r and the model it implies) is computed (and implicitly to show explicitly why it ought to yield the same value for the regression analysis). Your answer, although correct, is also based on regression, so it still leaves us wondering.
whuber

1
I think I understand, perhaps I was answering the question in the specific case rather than the general. I think it would be useful to be able to state the question in terms of a general null and alternative hypothesis to be able to consider this general case, as I am struggling to so.
Harry Salmon

I agree: exhibiting clear models and decision criteria for the correlation and regression analyses would be of great help in distinguishing them. Sometimes a good answer consists of little more than reframing or clarifying the question, and often the best answers begin with effective restatements of the question, so don't be afraid to go in that direction.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.