Correlazione è standardizzata covarianza, cioè la covarianza di X ed y diviso per la deviazione standard di X ed y . Permettetemi di illustrarlo.
In parole povere, le statistiche possono essere riassunte come modelli adeguati ai dati e valutare quanto bene il modello descriva quei punti di dati ( Risultato = Modello + Errore ). Un modo per farlo è calcolare le somme di deviazioni o residui (res) dal modello:
r e s = ∑ ( xio- x¯)
Molti calcoli statistici si basano su questo, incl. il coefficiente di correlazione (vedi sotto).
Ecco un set di dati di esempio creato in R
(i residui sono indicati come linee rosse e i loro valori sono aggiunti accanto a loro):
X <- c(8,9,10,13,15)
Y <- c(5,4,4,6,8)
X=11
Y=5.4
SS
SS= ∑ ( xio- x¯) ( xio- x¯) = ∑ ( xio- x¯)2
n - 1S2
S2= SSn - 1= ∑ ( xio- x¯) ( xio- x¯)n - 1= ∑ ( xio- x¯)2n - 1
Per comodità, è possibile prendere la radice quadrata della varianza del campione, nota come deviazione standard del campione:
s = s2--√= SSn - 1---√= ∑ ( xio- x¯)2n - 1-------√
Ora, la covarianza valuta se due variabili sono correlate tra loro. Un valore positivo indica che quando una variabile si discosta dalla media, l'altra variabile si discosta nella stessa direzione.
c o vx , y= ∑ ( xio- x¯) ( yio- y¯)n - 1
r
r = c o vx , ySXSy= ∑ ( x1- x¯) ( yio- y¯)( n - 1 ) sXSy
In questo caso, il coefficiente di correlazione di Pearson è r = 0,87, che può essere considerata una forte correlazione (sebbene questa sia anche relativa a seconda del campo di studio). Per verificare ciò, ecco un altro grafico con X
sull'asse xe sull'asse Y
y:
Per farla breve, sì, il tuo feeling è giusto ma spero che la mia risposta possa fornire un contesto.