Esiste un'interpretazione intuitiva di per una matrice di dati ?


107

Per una data matrice di dati (con variabili nelle colonne e punti di dati nelle righe), sembra che svolga un ruolo importante nelle statistiche. Ad esempio, è una parte importante della soluzione analitica dei minimi quadrati ordinari. Oppure, per PCA, i suoi autovettori sono i componenti principali dei dati.A T AAATA

Capisco come calcolare , ma mi chiedevo se ci fosse un'interpretazione intuitiva di ciò che questa matrice rappresenta, che porta al suo ruolo importante?ATA


2
Alcune intuizioni potrebbero essere fornite dall'analisi su stats.stackexchange.com/a/66295/919 .
whuber

Risposte:


125

geometrico, matrice è chiamata matrice di prodotti scalari (= prodotti a punti, = prodotti interni). Algebricamente, si chiama matrice della somma dei quadrati e dei prodotti incrociati ( SSCP ).AA

Il suo -esimo elemento diagonale è uguale a , dove indica i valori nella -esima colonna di e è la somma tra le righe. L' elemento -off-diagonale è .a 2 ( i ) a ( i ) i A i j a ( i ) a ( j )ia(i)2a(i)iAija(i)a(j)

Esistono numerosi importanti coefficienti di associazione e le loro matrici quadrate sono chiamate somiglianze angolari o somiglianze di tipo SSCP:

  • Dividendo la matrice SSCP per , la dimensione del campione o il numero di righe di , si ottiene la matrice MSCP (media-quadrato-e-prodotto incrociato). La formula coppie di questa misura associazione è quindi (con vettori ed essendo una coppia di colonne da ).A x ynA xyAxynxyA

  • Se centrare colonne (variabili) di , quindi è la dispersione (o co-dispersione, se ad essere rigorosi) matrice e è la covarianza matrice. La formula di covarianza a è con e che indicano colonne centrate.A A A A / ( n - 1 ) c x c yAAAAA/(n1) cxcycxcyn1cxcy

  • Se z standardizzi le colonne di (sottrai la media della colonna e dividi per la deviazione standard), allora è la matrice di correlazione di Pearson : la correlazione è covarianza per variabili standardizzate. La formula di correlazione a è con e indicano colonne standardizzate. La correlazione è anche chiamata coefficiente di linearità.A A / ( n - 1 ) z x z yAAA/(n1) zxzyzxzyn1zxzy

  • Se scala le unità di (porta le loro SS, somma dei quadrati, a 1), allora è la matrice di somiglianza del coseno . La formula a coppie equivalente sembra quindi essere con e indicano colonne normalizzate L2 . La somiglianza del coseno è anche chiamata coefficiente di proporzionalità.A A u x u y = x yAAA uxuyuxuy=xyx2y2uxuy

  • Se si centrare e poi unit scala colonne di , quindi è di nuovo il Pearson di correlazione della matrice, perché correlazione è del coseno per le variabili centrate :A A 1 , 2c u x c u y = c x c yAAA1,2cuxcuy=cxcycx2cy2

Accanto a queste quattro principali misure di associazione, citiamo anche alcune altre, anch'esse basate su , per . Possono essere visti come misure alternative alla somiglianza del coseno perché adottano una normalizzazione diversa da quella, il denominatore nella formula:AA

  • Il coefficiente di identità [Zegers & ten Berge, 1985] ha il suo denominatore sotto forma di media aritmetica piuttosto che media geometrica: . Può essere 1 se e solo se le colonne confrontate di sono identiche. Axy(x2+y2)/2A

  • Un altro coefficiente utilizzabile come questo è chiamato rapporto di somiglianza : .xyx2+y2xy=xyxy+(xy)2

  • Infine, se i valori in sono non negativi e la loro somma all'interno delle colonne è 1 (ad es. Sono proporzioni), allora è la matrice di fedeltà o coefficiente di Bhattacharyya .AAA


1 Un modo anche per calcolare la matrice di correlazione o covarianza, usata da molti pacchetti statistici, elude la centratura dei dati e parte direttamente dalla matrice SSCP questo modo. Sia il vettore di riga delle somme di colonna dei dati mentre è il numero di righe nei dati. Quindi (1) calcola la matrice scatter come [quindi, sarà la matrice di covarianza]; (2) la diagonale di è la somma delle deviazioni quadrate, vettore di riga ; (3) calcola la matrice di correlazione .AAsAnC=AAss/nC/(n1)CdR=C/dd

2 Un lettore acuto ma statisticamente alle prime armi potrebbe avere difficoltà a conciliare le due definizioni di correlazione - come "covarianza" (che include la media per dimensione del campione, la divisione per df = "n-1") e come "coseno" (che implica nessuna media del genere). Ma in realtà non esiste una media reale nella prima formula di correlazione. Il fatto è che st. la deviazione, mediante la quale la z-standardizzazione era stata raggiunta, era stata a sua volta calcolata con la divisione da quella stessa df ; e così il denominatore "n-1" nella formula di correlazione-come-covarianza si annulla completamente se si scartano le formule: la formula si trasforma nella formula del coseno . Per calcolare il valore di correlazione empirica si ha realmente bisogno , non di saperen (tranne quando si calcola la media, al centro).


42

La matrice contiene tutti i prodotti interni di tutte le colonne . La diagonale contiene quindi le norme quadrate delle colonne. Se si pensa alla geometria e alle proiezioni ortogonali sullo spazio della colonna attraversato dalle colonne in si può ricordare che le norme e i prodotti interni dei vettori che attraversano questo spazio svolgono un ruolo centrale nel calcolo della proiezione. La regressione dei minimi quadrati e i componenti principali possono essere compresi in termini di proiezioni ortogonali.ATAAA

Si noti inoltre che se le colonne di sono ortonormali, formando così una base ortonormale per lo spazio delle colonne, allora la matrice dell'identità.AATA=I


39

@NRH ha dato una buona risposta tecnica.

Se vuoi qualcosa di veramente semplice, puoi pensare ad come l'equivalente matriciale di per uno scalare.ATAA2


5
Sebbene le altre risposte siano più "tecnicamente" corrette, questa è la risposta più intuitiva.
CatsLoveJazz,

3

Una visione importante della geometria di è questa (il punto di vista fortemente sottolineato nel libro di Strang su "Algebra lineare e sue applicazioni"): Supponiamo che A sia una matrice del grado k, che rappresenta una mappa lineare . Let Col (A) e riga (A) essere la colonna e di riga spazi di . PoiAAm×nA:RnRmA

(AA):RnRn{e1,...,en}d1,,dk

(AA)(x1e1++xnen)=d1x1e1+...+dkxkek

(b) Range (A) = Col (A), per definizione di Col (A). Quindi A | Row (A) mappa Row (A) in Col (A).

Av=0v is in Kernel(A)vis in orthogonal complement of Row(A)

A(Rn)=A(Row(A))A|Row(A):Row(A)Col(A)

Reason: If v = r+k (r \in Row(A), k \in Kernel(A),from (c)) then
A(v) = A(r) + 0 = A(r) where A(r) = 0 <==> r = 0$.

[Per inciso, prova che il grado di riga = grado di colonna!]

A|:Col(A)=Row(A)Col(A')=Row(A)

AA(Rn)=Row(A)


2
È possibile racchiudere una formula in $ e $ per ottenereLATEX

2

ATA ha il significato di prendere prodotti punto, aggiungerei solo una rappresentazione grafica di questa moltiplicazione.

ATArowpATcolpAdot(rowp,colp)(p,p)all'interno della matriceATA .

Allo stesso modo, moltiplicare la riga di con la colonna di equivale al prodotto : , con il risultato in posizionepATkAdot(rowp,colk)(p,k) .

La voce della matrice risultante ha il significato di quanto il vettore è nella direzione del vettore . Se il prodotto punto di due vettori e è diverso da zero, alcune informazioni su un vettore sono trasportate da un vettore e viceversa.(p,k)ATArowpcolkrowicoljrowicolj

Questa idea gioca un ruolo importante nell'analisi dei componenti principali, dove vogliamo trovare una nuova rappresentazione della nostra matrice di dati iniziale tale che non ci siano più informazioni trasportate su alcuna colonna in qualsiasi altra colonna . Studiando più a fondo la PCA, vedrai che viene calcolata una "nuova versione" della matrice di covarianza e diventa una matrice diagonale che ti lascio capire che ... in effetti significa ciò che ho espresso nella frase precedente.Aiji

inserisci qui la descrizione dell'immagine


1

Ci sono livelli di intuizione. Per chi ha familiarità con l'istatistica della notazione matriciale l'intuizione è di pensarla come un quadrato della variabile casuale: vsxE[x2]AATA

Nella notazione matriciale un campione della variabile casuale osservazioni o una popolazione sono rappresentati da un vettore di colonna:xxi

a=[x1x2xn]

Quindi, se vuoi ottenere una media di esempio del quadrato della variabile , ottieni semplicemente un punto prodotto , che è lo stesso nella notazione matriciale di .x

x2¯=aan
ATA

Si noti che se la media campionaria della variabile è ZERO, la varianza è uguale alla media del quadrato: che è analogo ad . Questo è il motivo per cui in PCA è necessaria la media zero e perché viene visualizzato , dopo tutto PCA è di scomporre la matrice di varianza del set di dati.σ2=E[x2]ATAATA

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.