Quali sono i punteggi dei componenti principali?


71

Quali sono i punteggi dei componenti principali (punteggi PC, punteggi PCA)?


el chef ha una risposta sintetica qui -> stats.stackexchange.com/questions/146/… . HTH
Roman Luštrik,



Risposte:


66

Innanzitutto, definiamo un punteggio.

John, Mike e Kate ottengono le seguenti percentuali di esami in matematica, scienze, inglese e musica come segue:

      Maths    Science    English    Music    
John  80        85          60       55  
Mike  90        85          70       45
Kate  95        80          40       50

In questo caso ci sono 12 punteggi in totale. Ogni punteggio rappresenta i risultati dell'esame per ogni persona in una determinata materia. Quindi un punteggio in questo caso è semplicemente una rappresentazione del punto in cui una riga e una colonna si intersecano.

Ora definiamo in modo informale un componente principale.

Nella tabella sopra, puoi facilmente tracciare i dati in un grafico 2D? No, perché ci sono quattro materie (il che significa quattro variabili: matematica, scienze, inglese e musica), ovvero:

  • Si potrebbe tracciare due soggetti nello stesso esatto modo si farebbe con e coordinate in un grafico 2D.yxy
  • Si potrebbe anche tracciare tre soggetti nello stesso modo in cui si tracciare , e in un grafico 3D (anche se questo è generalmente cattiva pratica, perché qualche distorsione è inevitabile nella rappresentazione 2D dei dati 3D).y zxyz

Ma come tratteresti 4 soggetti?

Al momento abbiamo quattro variabili che rappresentano ciascuna un solo argomento. Quindi un metodo attorno a questo potrebbe essere quello di combinare in qualche modo i soggetti in forse solo due nuove variabili che possiamo poi tracciare. Questo è noto come ridimensionamento multidimensionale .

L'analisi dei componenti principali è una forma di ridimensionamento multidimensionale. È una trasformazione lineare delle variabili in uno spazio dimensionale inferiore che conserva la massima quantità di informazioni sulle variabili. Ad esempio, ciò significherebbe che potremmo esaminare i tipi di materie a cui ogni studente è forse più adatto.

Un componente principale è quindi una combinazione delle variabili originali dopo una trasformazione lineare. In R, questo è:

DF<-data.frame(Maths=c(80, 90, 95), Science=c(85, 85, 80), English=c(60, 70, 40), Music=c(55, 45, 50))
prcomp(DF, scale = FALSE)

Il che ti darà qualcosa del genere (i primi due componenti principali solo per semplicità):

                PC1         PC2
Maths    0.27795606  0.76772853 
Science -0.17428077 -0.08162874 
English -0.94200929  0.19632732 
Music    0.07060547 -0.60447104 

La prima colonna mostra i coefficienti della combinazione lineare che definisce il componente principale n. 1 e la seconda colonna mostra i coefficienti per il componente principale n. 2.

Quindi cos'è un punteggio componente principale?

È un punteggio della tabella alla fine di questo post (vedi sotto).

L'output sopra riportato da R significa che ora possiamo tracciare il punteggio di ogni persona su tutti i soggetti in un grafico 2D come segue. Innanzitutto, dobbiamo centrare le variabili originali che la mia colonna di sottrazione significa:

      Maths    Science    English    Music    
John  -8.33       1.66       3.33       5  
Mike   1.66       1.66      13.33      -5
Kate   6.66       -3.33    -16.66       0

E quindi per formare combinazioni lineari per ottenere punteggi PC1 e PC2 :

      x                                                    y
John -0.28*8.33 + -0.17*1.66 + -0.94*3.33  + 0.07*5   -0.77*8.33 + -0.08*1.66 + 0.19*3.33   + -0.60*5 
Mike 0.28*1.66  + -0.17*1.66 + -0.94*13.33 + -0.07*5   0.77*1.66 + -0.08*1.66 + 0.19*13.33  + -0.60*5
Kate 0.28*6.66  + 0.17*3.33  + 0.94*16.66  + 0.07*0    0.77*6.66 +  0.08*3.33 + -0.19*16.66 + -0.60*0

Che semplifica a:

        x       y
John   -5.39   -8.90
Mike  -12.74    6.78
Kate   18.13    2.12

Ci sono sei punteggi dei componenti principali nella tabella sopra. Ora puoi tracciare i punteggi in un grafico 2D per avere un'idea del tipo di argomenti a cui forse ogni studente è più adatto.

Lo stesso output può essere ottenuto in R digitando prcomp(DF, scale = FALSE)$x.

EDIT 1: Hmm, probabilmente avrei potuto trovare un esempio migliore, e c'è di più rispetto a quello che ho messo qui, ma spero che tu abbia avuto l'idea.

EDIT 2: pieno merito a @drpaulbrewer per il suo commento nel migliorare questa risposta.


10
Lo sforzo è encomiabile - MA - né PC1 né PC2 ti dicono chi ha fatto meglio in tutte le materie. Per fare ciò, i coeffcienti del soggetto PC dovrebbero essere tutti positivi. PC1 ha pesi positivi per la matematica e la musica ma negativi per la scienza e l'inglese. PC2 ha pesi positivi per la matematica e l'inglese ma negativi per la scienza e la musica. Ciò che i PC ti dicono è dove si trova la maggiore varianza nel set di dati. Quindi, ponderando le materie in base ai coefficienti in PC1 e utilizzandolo per valutare gli studenti, si ottiene la più grande varianza o diffusione nei comportamenti degli studenti. Può classificare i tipi ma non le prestazioni.
Paolo

+1 buon commento, evviva. Naturalmente hai ragione, avrei dovuto scriverlo meglio e ora ho modificato la riga offensiva per chiarire, spero.
Tony Breyal,

Potresti standardizzare i var, quindi calcolare la somma, per vedere chi è il migliore, o se preferisci, in R:apply(dtf, 1, function(x) sum(scale(x)))
aL3xa

2
@JohnPrior Le quattro variabili (colonne) sono matematica, scienze, inglese e musica e le righe rappresentano individui. Il termine "soggetto" a volte diventa ambiguo perché cinque anni fa ho scelto un terribile esempio di risposta.
Tony Breyal,

1
@Tony, sono andato avanti e ho modificato la tua risposta per centrare le variabili prima di calcolare i punteggi. Ora i punteggi calcolati si adattano a quali prcomprisultati. Prima non lo faceva.
ameba dice di reintegrare Monica il

23

L'analisi dei componenti principali (PCA) è un approccio popolare che analizza la varianza quando si ha a che fare con dati multivariati. Hai variabili casuali X1, X2, ... Xn che sono tutte correlate (positivamente o negativamente) a vari livelli e vuoi capire meglio cosa sta succedendo. PCA può aiutare.

Ciò che PCA ti dà è un cambiamento di variabile in Y1, Y2, ..., Yn (cioè lo stesso numero di variabili) che sono combinazioni lineari delle Xs. Ad esempio, potresti avere Y1 = 2,1 X1 - 1,76 X2 + 0,2 X3 ...

Ys è la bella proprietà che ognuno di questi ha zero correlazione tra loro. Meglio ancora, li ottieni in ordine decrescente di varianza. Quindi, Y1 "spiega" un grosso pezzo della varianza delle variabili originali, Y2 un po 'meno e così via. Di solito dopo le prime Y, le variabili diventano in qualche modo insignificanti. Il punteggio PCA per uno qualsiasi degli Xi è solo il suo coefficiente in ciascuno degli Y. Nel mio esempio precedente, il punteggio per X2 nel primo componente principale (Y1) è 1,76.

Il modo in cui PCA fa questa magia è calcolando gli autovettori della matrice di covarianza.

Per fare un esempio concreto, immagina X1, ... X10 sono le variazioni dei rendimenti dei buoni del tesoro a 1 anno, 2 anni, ..., a 10 anni in un certo periodo di tempo. Quando si calcola la PCA, in genere si rileva che il primo componente ha punteggi per ogni legame dello stesso segno e circa lo stesso segno. Questo ti dice che la maggior parte della varianza nei rendimenti obbligazionari proviene da tutto ciò che si muove allo stesso modo: "spostamenti paralleli" su o giù. Il secondo componente mostra in genere "irrigidimento" e "appiattimento" della curva e presenta segni opposti per X1 e X10.


In che modo un valore Y più alto "spiega" un pezzo più grande della varianza? È come viene calcolato il PCA? Se è così, penso di avere un'altra domanda da pubblicare;)
vrish88,

1
Esatto - se la varianza di PC è, diciamo 3.5, allora quel PC "spiega" la variabilità di 3,5 variabili dall'insieme iniziale. Poiché i PC sono additivi PC1 > PC2 > ... > PCne la somma delle loro varianze è uguale alla somma delle varianze dell'insieme di variabili iniziale, poiché il PCA è calcolato sulla matrice di covarianza, ovvero le variabili sono standardizzate (SD = 1, VAR = 1).
aL3xa

6

Supponi di avere una nuvola di N punti, diciamo, 3D (che può essere elencato in un array 100x3). Quindi, l'analisi dei componenti principali (PCA) adatta un ellissoide arbitrariamente orientato nei dati. Il punteggio del componente principale è la lunghezza dei diametri dell'ellissoide.

Nella direzione in cui il diametro è grande, i dati variano molto, mentre nella direzione in cui il diametro è piccolo, i dati variano litte. Se si desidera proiettare dati Nd in un diagramma a dispersione 2D, li si tracciano lungo i due componenti principali più grandi, perché con questo approccio si visualizza la maggior parte della varianza nei dati.


Ci sarebbe qualche vantaggio o potresti tracciarli su un diagramma a dispersione 3D?
vrish88,

6

Mi piace pensare ai punteggi dei componenti principali come "sostanzialmente insignificanti" fino a quando non si dà loro un certo significato. Interpretare i punteggi dei PC in termini di "realtà" è un affare complicato - e non può davvero esserci un modo unico per farlo. Dipende da ciò che sai delle variabili particolari che stanno entrando nel PCA e da come si relazionano tra loro in termini di interpretazioni.

Per quanto riguarda la matematica, mi piace interpretare i punteggi PC come coordinate di ciascun punto, rispetto agli assi dei componenti principali. Quindi nelle variabili grezze che haixi =(x1i,x2i,,xpi)x1x1izi =(z1i,z2i,,zpi)=A(xix¯)Ap×px¯

Quindi puoi pensare agli autovettori come a descrivere dove sono le "linee rette" che descrivono i PC. Quindi i punteggi dei componenti principali descrivono la posizione di ciascun punto dati su ciascuna linea retta, in relazione al "centro" dei dati. Puoi anche pensare ai punteggi del PC in combinazione con i pesi / autovettori come una serie di previsioni di grado 1 per ciascuno dei punti di dati originali, che hanno la forma:

x^ji(k)=x¯j+zkiAkj

x^ji(k)ijk


4

I componenti principali di una matrice di dati sono le coppie autovettore-autovalore della sua matrice varianza-covarianza. In sostanza, sono i pezzi decorrelati della varianza. Ognuna è una combinazione lineare delle variabili per un'osservazione - supponiamo che tu misuri w, x, y, z su ciascuno di un gruppo di soggetti. Il tuo primo PC potrebbe funzionare per essere qualcosa del genere

0,5w + 4x + 5y - 1,5z

I caricamenti (autovettori) qui sono (0,5, 4, 5, -1,5). Il punteggio (autovalore) per ciascuna osservazione è il valore risultante quando si sostituisce l'osservato (w, x, y, z) e si calcola il totale.

Ciò è utile quando si proiettano le cose sui loro componenti principali (ad esempio, rilevamento anomalo) perché si tracciano semplicemente i punteggi su ciascuno come si farebbe con qualsiasi altro dato. Questo può rivelare molto sui tuoi dati se gran parte della varianza è correlata (== nei primi PC).


Per chiarezza, quando dici "supponi di misurare w, x, y, z su ciascuno di un gruppo di soggetti", non ti riferisci ai "soggetti" della risposta di @TonyBreyal sopra, vero? Stai usando la parola "soggetti" per essere sinonimo di "osservazioni" / "record" / "righe di dati"?
Ryan Chase,

4

i=1,,Nj=1,,M

Zi,1=ci,1Yi,1+ci,2Yi,2+...+ci,MYi,M

cY

Z1=(Z1,1,...,ZN,1

Un output di R su PCA (un esempio falso) è simile al seguente. PC1, PC2 ... sono i componenti principali 1, 2 ... L'esempio seguente mostra solo i primi 8 componenti principali (su 17). Puoi anche estrarre altri elementi da PCA, come caricamenti e punteggi.

Importance of components:
                          PC1    PC2    PC3    PC4    PC5    PC6    PC7    PC8
Standard deviation     1.0889 1.0642 1.0550 1.0475 1.0387 1.0277 1.0169 1.0105
Proportion of Variance 0.0697 0.0666 0.0655 0.0645 0.0635 0.0621 0.0608 0.0601
Cumulative Proportion  0.0697 0.1364 0.2018 0.2664 0.3298 0.3920 0.4528 0.5129

1
Spiacenti, ma quali sono i caricamenti (c nella tua formula) e come li determini?
vrish88,

@ vrish88 Credo che i c siano i "caricamenti" degli autovettori. La mia comprensione è che questi sono essenzialmente solo i coefficienti correttori che stai dando a ciascuna delle variabili. Tim lo spiega bene nella sua risposta.
Ryan Chase,

3

I punteggi dei componenti principali sono un gruppo di punteggi ottenuti a seguito di un'analisi dei componenti principali (PCA). Nella PCA le relazioni tra un gruppo di punteggi vengono analizzate in modo tale da creare un numero uguale di nuove variabili "immaginarie" (ovvero componenti principali). La prima di queste nuove variabili immaginarie è correlata al massimo con tutto il gruppo originale di variabili. Il prossimo è un po 'meno correlato, e così via fino al punto che se si utilizzassero tutti i punteggi dei componenti principali per prevedere una data variabile dal gruppo iniziale, si sarebbe in grado di spiegarne tutta la varianza. Il modo in cui procede PCA è complesso e presenta alcune restrizioni. Tra questi c'è la restrizione che la correlazione tra due componenti principali (cioè variabili immaginarie) è zero; quindi non

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.