geometrico, matrice è chiamata matrice di prodotti scalari (= prodotti a punti, = prodotti interni). Algebricamente, si chiama matrice della somma dei quadrati e dei prodotti incrociati ( SSCP ).A′A
Il suo -esimo elemento diagonale è uguale a , dove indica i valori nella -esima colonna di e è la somma tra le righe. L' elemento -off-diagonale è .∑ a 2 ( i ) a ( i ) i A ∑ i j ∑ a ( i ) a ( j )i∑a2(i)a(i)iA∑ij∑a(i)a(j)
Esistono numerosi importanti coefficienti di associazione e le loro matrici quadrate sono chiamate somiglianze angolari o somiglianze di tipo SSCP:
Dividendo la matrice SSCP per , la dimensione del campione o il numero di righe di , si ottiene la matrice MSCP (media-quadrato-e-prodotto incrociato). La formula coppie di questa misura associazione è quindi (con vettori ed essendo una coppia di colonne da ).A ∑ x ynA xyA∑xynxyA
Se centrare colonne (variabili) di , quindi è la dispersione (o co-dispersione, se ad essere rigorosi) matrice e è la covarianza matrice. La formula di covarianza a è con e che indicano colonne centrate.A ′ A A ′ A / ( n - 1 ) ∑ c x c yAA′AA′A/(n−1) cxcy∑cxcyn−1cxcy
Se z standardizzi le colonne di (sottrai la media della colonna e dividi per la deviazione standard), allora è la matrice di correlazione di Pearson : la correlazione è covarianza per variabili standardizzate. La formula di correlazione a è con e indicano colonne standardizzate. La correlazione è anche chiamata coefficiente di linearità.A ′ A / ( n - 1 ) ∑ z x z yAA′A/(n−1) zxzy∑zxzyn−1zxzy
Se scala le unità di (porta le loro SS, somma dei quadrati, a 1), allora è la matrice di somiglianza del coseno . La formula a coppie equivalente sembra quindi essere con e indicano colonne normalizzate L2 . La somiglianza del coseno è anche chiamata coefficiente di proporzionalità.A ′ A ∑ u x u y = ∑ x yAA′A uxuy∑uxuy=∑xy∑x2√∑y2√uxuy
Se si centrare e poi unit scala colonne di , quindi è di nuovo il Pearson di correlazione della matrice, perché correlazione è del coseno per le variabili centrate :A ′ A 1 , 2 ∑ c u x c u y = ∑ c x c yAA′A1,2∑cuxcuy=∑cxcy∑c2x√∑c2y√
Accanto a queste quattro principali misure di associazione, citiamo anche alcune altre, anch'esse basate su , per . Possono essere visti come misure alternative alla somiglianza del coseno perché adottano una normalizzazione diversa da quella, il denominatore nella formula:A′A
Il coefficiente di identità [Zegers & ten Berge, 1985] ha il suo denominatore sotto forma di media aritmetica piuttosto che media geometrica: . Può essere 1 se e solo se le colonne confrontate di sono identiche. A∑xy(∑x2+∑y2)/2A
Un altro coefficiente utilizzabile come questo è chiamato rapporto di somiglianza : .∑xy∑x2+∑y2−∑xy=∑xy∑xy+∑(x−y)2
Infine, se i valori in sono non negativi e la loro somma all'interno delle colonne è 1 (ad es. Sono proporzioni), allora è la matrice di fedeltà o coefficiente di Bhattacharyya .√AA−−√′A−−√
1 Un modo anche per calcolare la matrice di correlazione o covarianza, usata da molti pacchetti statistici, elude la centratura dei dati e parte direttamente dalla matrice SSCP questo modo. Sia il vettore di riga delle somme di colonna dei dati mentre è il numero di righe nei dati. Quindi (1) calcola la matrice scatter come [quindi, sarà la matrice di covarianza]; (2) la diagonale di è la somma delle deviazioni quadrate, vettore di riga ; (3) calcola la matrice di correlazione .A′AsAnC=A′A−s′s/nC/(n−1)CdR=C/d′d−−−√
2 Un lettore acuto ma statisticamente alle prime armi potrebbe avere difficoltà a conciliare le due definizioni di correlazione - come "covarianza" (che include la media per dimensione del campione, la divisione per df = "n-1") e come "coseno" (che implica nessuna media del genere). Ma in realtà non esiste una media reale nella prima formula di correlazione. Il fatto è che st. la deviazione, mediante la quale la z-standardizzazione era stata raggiunta, era stata a sua volta calcolata con la divisione da quella stessa df ; e così il denominatore "n-1" nella formula di correlazione-come-covarianza si annulla completamente se si scartano le formule: la formula si trasforma nella formula del coseno . Per calcolare il valore di correlazione empirica si ha realmente bisogno , non di saperen (tranne quando si calcola la media, al centro).