Come comprendere la formula del coefficiente di correlazione?


15

Qualcuno può aiutarmi a capire la formula di correlazione di Pearson? il campione = media dei prodotti dei punteggi standard delle variabili e .rXY

In un certo senso capisco perché devono standardizzare e , ma come capire i prodotti di entrambi i punteggi z? XY

Questa formula è anche chiamata "coefficiente di correlazione prodotto-momento", ma qual è la logica dell'azione del prodotto? Non sono sicuro di aver chiarito la mia domanda, ma voglio solo ricordare la formula in modo intuitivo.


11
Potresti voler leggere l'articolo "Tredici modi di guardare il coefficiente di correlazione" (Rodgers & Nicewander 1988). Come suggerisce il titolo, discute tredici diverse visioni intuitive del coefficiente di correlazione. Quindi si spera che almeno uno faccia clic :)
mezzo passaggio

10
13 modi possono essere trovati qui
Dimitriy V. Masterov

4
Un quattordicesimo modo per comprendere la correlazione (in termini di prodotti dei punteggi z) si riduce alla comprensione della covarianza delle variabili standardizzate, come illustrato in stats.stackexchange.com/questions/18058/… .
whuber

4
... E un 15o modo usa i cerchi mostrati su stats.stackexchange.com/a/46508/919 : un adattamento dei minimi quadrati minimizza l'area totale dei cerchi (ci sono almeno due modi per farlo quando i punti lo fanno non esattamente allineati) e il coefficiente di correlazione è quindi la loro area media (quando entrambe le variabili sono standardizzate).
whuber

Risposte:


14

Nei commenti, sono stati suggeriti 15 modi per comprendere il coefficiente di correlazione:


I 13 modi discussi nell'articolo di Rodgers e Nicewander (The American Statistician, febbraio 1988) sono

  1. Una funzione di punteggi e mezzi grezzi,

    r=(XiX¯)(YiY¯)(XiX¯)2(YiY¯)2.
  2. Covarianza standardizzata,

    r=sXY/(sXsY)

    dove è la covarianza del campione e s X e s Y sono le deviazioni standard del campione.sXYsXsY

  3. Pendenza standardizzata della linea di regressione,

    r=bYXsXsY=bXYsYsX,

    dove e b X Y sono le pendenze delle linee di regressione.bYXbXY

  4. La media geometrica dei due pendii di regressione,

    r=±bYXbXY.
  5. La radice quadrata del rapporto di due varianze (proporzione della variabilità contabilizzata),

    r=(YiYi^)2(YiY¯)2=SSREGSSTOT=sY^sY.
  6. Il prodotto incrociato medio di variabili standardizzate,

    r=zXzY/N.
  7. Una funzione dell'angolo tra le due linee di regressione standardizzate. Le due linee di regressione (di vs. X e X vs. Y ) sono simmetriche rispetto alla diagonale. Lascia che l'angolo tra le due linee sia β . PoiYXXYβ

    r=sec(β)±tan(β).
  8. Una funzione dell'angolo tra i due vettori variabili,

    r=cos(α).
  9. Una varianza ridotta della differenza tra i punteggi standardizzati. Lasciando che sia la differenza tra le variabili X e Y standardizzate per ogni osservazione,zYzXXY

    r=1s(zYzX)2/2=s(zY+zX)2/21.
  10. Stimato dalla regola del "pallone",

    r1(h/H)2

    dove è l'intervallo verticale dell'intero diagramma a dispersione X - Y e h è l'intervallo attraverso il "centro della distribuzione sull'asse X " (ovvero attraverso il punto dei mezzi).HXYhX

  11. In relazione alle ellissi bivariate di isoconcentrazione,

    r=D2d2D2+d2

    dove e d sono rispettivamente le lunghezze maggiore e minore dell'asse. r eguaglia anche la pendenza della linea tangente di un isocontour (in coordinate standardizzate) nel punto in cui il contorno attraversa l'asse verticale.Ddr

  12. Una funzione delle statistiche di test da esperimenti progettati,

    r=tt2+n2

    dove è la statistica del test in un test t indipendente da due campioni per un esperimento progettato con due condizioni di trattamento (codificato come X = 0 , 1 ) e n è il numero totale combinato di osservazioni nei due gruppi di trattamento.ttX=0,1n

  13. Il rapporto di due mezzi. Assumi la normalità bivariata e standardizza le variabili. Selezionare alcuni arbitrariamente grande valore di X . PoiXcX

    r=E(Y|X>Xc)E(X|X>Xc).

(La maggior parte di questo è testualmente, con lievi cambiamenti in alcune notazioni.)

Alcuni altri metodi (forse originali di questo sito) sono

  • Tramite cerchi. è la pendenza della linea di regressione in coordinate standardizzate. Questa linea può essere caratterizzata in vari modi, inclusi quelli geometrici, come ridurre al minimo l'area totale dei cerchi disegnati tra la linea e i punti dati in un diagramma a dispersione.r

  • Colorando i rettangoli. La covarianza può essere valutata colorando i rettangoli in un diagramma a dispersione (ovvero sommando le aree dei rettangoli firmate ). Quando il grafico a dispersione è standardizzato, la quantità netta di colore - l'errore totale firmato - è .r


2
Grazie, @Avraham, per aver cercato di chiudere questa discussione senza risposta pubblicando una risposta qui.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.