I requisiti di questo tipo di domande mi sembrano un po 'bizzarri. Ecco un concetto / formula matematica , ma voglio parlarne in un contesto completamente privo di simboli matematici. Penso anche che dovrebbe essere affermato che l'attuale algebra necessaria per comprendere le formule, penso, dovrebbe essere insegnata alla maggior parte degli individui prima dell'istruzione superiore (non è necessaria alcuna comprensione dell'algebra matriciale, basterà una semplice algebra).
Quindi, all'inizio invece di ignorare completamente la formula e parlarne in alcuni tipi di analogie magiche ed euristiche, diamo un'occhiata alla formula e proviamo a spiegare i singoli componenti in piccoli passi. La differenza in termini di covarianza e correlazione, quando si osservano le formule, dovrebbe diventare chiara. Considerando che parlando in termini di analogie ed euristiche, sospetto che oscurerebbero due concetti relativamente semplici e le loro differenze in molte situazioni.
Quindi iniziamo con una formula per la covarianza del campione (questi che ho appena preso e adottato da Wikipedia);
1n−1∑ni=1(xi−x¯)(yi−y¯)
Per velocizzare tutti, definiamo esplicitamente tutti gli elementi e le operazioni nella formula.
- e y i sono ciascuna misure di due attributi separati della stessa osservazionexiyi
- e ˉ y sono i mezzi (o media) di ciascun attributox¯y¯
- Per , diciamo solo che questo significa che dividiamo il risultato finale pern-1.1n−1n−1
- potrebbe essere un simbolo straniero per alcuni, quindi sarebbe probabilmente utile spiegare questa operazione. È semplicemente la somma di tutti i separati osservazioni, ed n rappresenta il numero totale di osservazioni.∑ni=1in
A questo punto, potrei introdurre un semplice esempio, per dare un volto agli elementi e alle operazioni per così dire. Così, per esempio, consente solo fare una tabella dove ogni riga corrisponde a un'osservazione (e ed y sono etichettati in modo appropriato). Uno probabilmente renderebbe questi esempi più specifici (ad esempio diciamo che x rappresenta l'età e y rappresenta il peso), ma per la nostra discussione qui non dovrebbe importare.xyxy
x y
---
2 5
4 8
9 3
5 6
0 8
A questo punto se ritieni che l'operazione di somma nella formula potrebbe non essere stata completamente compresa, puoi introdurla di nuovo in un contesto molto più semplice. Di 'solo presente che equivale a dire in questo esempio;∑ni=1(xi)
x
--
2
4
9
5
+ 0
--
20
Ora quel pasticcio dovrebbe essere chiarito, e possiamo farci strada nella seconda parte della formula, . Ora, supponendo che le persone sanno già che cosa la media, ˉ x e ° y rappresentiamo, e direi, essere ipocriti dei miei precedenti commenti nel post, si può solo fare riferimento alla media in termini di semplici euristiche (per esempio al centro della distribuzione). Si può quindi eseguire questo processo un'operazione alla volta. La dichiarazione ( x i - ˉ x )(xi−x¯)(yi−y¯)x¯y¯(xi−x¯)sta solo esaminando le deviazioni / distanza tra ciascuna osservazione e la media di tutte le osservazioni per quel particolare attributo. Quindi quando un'osservazione è più lontana dalla media, a questa operazione verrà assegnato un valore più elevato. Si può quindi fare riferimento alla tabella di esempio fornita e dimostrare semplicemente l'operazione sul vettore delle osservazioni.x
x x_bar (x - x_bar)
2 4 -2
4 4 0
9 4 5
5 4 1
0 4 -4
L'operazione è la stessa per il vettore , ma solo per il rinforzo puoi presentare anche quell'operazione.y
y y_bar (y - y_bar)
5 6 -1
8 6 2
3 6 -3
6 6 0
8 6 2
(xi−x¯)(yi−y¯)(xi−x¯)⋅(yi−y¯)
Prendi nota di ciò che accade durante la moltiplicazione, se due osservazioni sono entrambe a grande distanza sopra la media, l'osservazione risultante avrà un valore positivo ancora maggiore (lo stesso vale se entrambe le osservazioni sono a grande distanza sotto la media, moltiplicando due negativi è uguale a positivo). Si noti inoltre che se un'osservazione è alta sopra la media e l'altra è ben al di sotto della media, il valore risultante sarà grande (in termini assoluti) e negativo (poiché un positivo per un negativo equivale a un numero negativo). Infine, nota che quando un valore è molto vicino alla media per entrambe le osservazioni, moltiplicando i due valori si otterrà un piccolo numero. Ancora una volta possiamo presentare questa operazione in una tabella.
(x - x_bar) (y - y_bar) (x - x_bar)*(y - y_bar)
-2 -1 2
0 2 0
5 -3 -15
1 0 0
-4 2 -8
n - 1
(x - x_bar)*(y - y_bar)
-----------------------
2
0
-15
0
+ -8
-----
-21
-21/(5-1) = -5.25
A questo punto potresti voler rinforzare la provenienza del 5, ma dovrebbe essere semplice come fare riferimento alla tabella e contare il numero di osservazioni (lasciamo di nuovo la differenza tra campione e popolazione ad un'altra volta).
ρ
ρ = Co v ( x , y)Va r ( x ) Va r ( y)√
Co v ( x , x ) = Va r ( x )). E si applicano tutti gli stessi concetti che hai introdotto con la covarianza (cioè se una serie ha molti valori ben lontani dalla sua media, avrà una varianza elevata). Forse nota qui che una serie non può avere anche una varianza negativa (che dovrebbe logicamente seguire dalla matematica precedentemente presentata).
Va r ( x )Va r (y)Va r ( x )Va r (y)-----------√
Capisco in alcune circostanze che questo livello di trattamento non sarebbe appropriato. Il senato ha bisogno del riassunto esecutivo . In tal caso, puoi fare riferimento alla semplice euristica che le persone hanno utilizzato in altri esempi, ma Roma non è stata costruita in un giorno. E al senato che chiede il riassunto esecutivo, se hai così poco tempo forse dovresti semplicemente prendere la mia parola per farlo e rinunciare alle formalità di analogie e punti elenco.