Quali sono i punteggi dei componenti principali (punteggi PC, punteggi PCA)?
Quali sono i punteggi dei componenti principali (punteggi PC, punteggi PCA)?
Risposte:
Innanzitutto, definiamo un punteggio.
John, Mike e Kate ottengono le seguenti percentuali di esami in matematica, scienze, inglese e musica come segue:
Maths Science English Music
John 80 85 60 55
Mike 90 85 70 45
Kate 95 80 40 50
In questo caso ci sono 12 punteggi in totale. Ogni punteggio rappresenta i risultati dell'esame per ogni persona in una determinata materia. Quindi un punteggio in questo caso è semplicemente una rappresentazione del punto in cui una riga e una colonna si intersecano.
Ora definiamo in modo informale un componente principale.
Nella tabella sopra, puoi facilmente tracciare i dati in un grafico 2D? No, perché ci sono quattro materie (il che significa quattro variabili: matematica, scienze, inglese e musica), ovvero:
Ma come tratteresti 4 soggetti?
Al momento abbiamo quattro variabili che rappresentano ciascuna un solo argomento. Quindi un metodo attorno a questo potrebbe essere quello di combinare in qualche modo i soggetti in forse solo due nuove variabili che possiamo poi tracciare. Questo è noto come ridimensionamento multidimensionale .
L'analisi dei componenti principali è una forma di ridimensionamento multidimensionale. È una trasformazione lineare delle variabili in uno spazio dimensionale inferiore che conserva la massima quantità di informazioni sulle variabili. Ad esempio, ciò significherebbe che potremmo esaminare i tipi di materie a cui ogni studente è forse più adatto.
Un componente principale è quindi una combinazione delle variabili originali dopo una trasformazione lineare. In R, questo è:
DF<-data.frame(Maths=c(80, 90, 95), Science=c(85, 85, 80), English=c(60, 70, 40), Music=c(55, 45, 50))
prcomp(DF, scale = FALSE)
Il che ti darà qualcosa del genere (i primi due componenti principali solo per semplicità):
PC1 PC2
Maths 0.27795606 0.76772853
Science -0.17428077 -0.08162874
English -0.94200929 0.19632732
Music 0.07060547 -0.60447104
La prima colonna mostra i coefficienti della combinazione lineare che definisce il componente principale n. 1 e la seconda colonna mostra i coefficienti per il componente principale n. 2.
Quindi cos'è un punteggio componente principale?
È un punteggio della tabella alla fine di questo post (vedi sotto).
L'output sopra riportato da R significa che ora possiamo tracciare il punteggio di ogni persona su tutti i soggetti in un grafico 2D come segue. Innanzitutto, dobbiamo centrare le variabili originali che la mia colonna di sottrazione significa:
Maths Science English Music
John -8.33 1.66 3.33 5
Mike 1.66 1.66 13.33 -5
Kate 6.66 -3.33 -16.66 0
E quindi per formare combinazioni lineari per ottenere punteggi PC1 e PC2 :
x y
John -0.28*8.33 + -0.17*1.66 + -0.94*3.33 + 0.07*5 -0.77*8.33 + -0.08*1.66 + 0.19*3.33 + -0.60*5
Mike 0.28*1.66 + -0.17*1.66 + -0.94*13.33 + -0.07*5 0.77*1.66 + -0.08*1.66 + 0.19*13.33 + -0.60*5
Kate 0.28*6.66 + 0.17*3.33 + 0.94*16.66 + 0.07*0 0.77*6.66 + 0.08*3.33 + -0.19*16.66 + -0.60*0
Che semplifica a:
x y
John -5.39 -8.90
Mike -12.74 6.78
Kate 18.13 2.12
Ci sono sei punteggi dei componenti principali nella tabella sopra. Ora puoi tracciare i punteggi in un grafico 2D per avere un'idea del tipo di argomenti a cui forse ogni studente è più adatto.
Lo stesso output può essere ottenuto in R digitando prcomp(DF, scale = FALSE)$x
.
EDIT 1: Hmm, probabilmente avrei potuto trovare un esempio migliore, e c'è di più rispetto a quello che ho messo qui, ma spero che tu abbia avuto l'idea.
EDIT 2: pieno merito a @drpaulbrewer per il suo commento nel migliorare questa risposta.
apply(dtf, 1, function(x) sum(scale(x)))
prcomp
risultati. Prima non lo faceva.
L'analisi dei componenti principali (PCA) è un approccio popolare che analizza la varianza quando si ha a che fare con dati multivariati. Hai variabili casuali X1, X2, ... Xn che sono tutte correlate (positivamente o negativamente) a vari livelli e vuoi capire meglio cosa sta succedendo. PCA può aiutare.
Ciò che PCA ti dà è un cambiamento di variabile in Y1, Y2, ..., Yn (cioè lo stesso numero di variabili) che sono combinazioni lineari delle Xs. Ad esempio, potresti avere Y1 = 2,1 X1 - 1,76 X2 + 0,2 X3 ...
Ys è la bella proprietà che ognuno di questi ha zero correlazione tra loro. Meglio ancora, li ottieni in ordine decrescente di varianza. Quindi, Y1 "spiega" un grosso pezzo della varianza delle variabili originali, Y2 un po 'meno e così via. Di solito dopo le prime Y, le variabili diventano in qualche modo insignificanti. Il punteggio PCA per uno qualsiasi degli Xi è solo il suo coefficiente in ciascuno degli Y. Nel mio esempio precedente, il punteggio per X2 nel primo componente principale (Y1) è 1,76.
Il modo in cui PCA fa questa magia è calcolando gli autovettori della matrice di covarianza.
Per fare un esempio concreto, immagina X1, ... X10 sono le variazioni dei rendimenti dei buoni del tesoro a 1 anno, 2 anni, ..., a 10 anni in un certo periodo di tempo. Quando si calcola la PCA, in genere si rileva che il primo componente ha punteggi per ogni legame dello stesso segno e circa lo stesso segno. Questo ti dice che la maggior parte della varianza nei rendimenti obbligazionari proviene da tutto ciò che si muove allo stesso modo: "spostamenti paralleli" su o giù. Il secondo componente mostra in genere "irrigidimento" e "appiattimento" della curva e presenta segni opposti per X1 e X10.
PC1 > PC2 > ... > PCn
e la somma delle loro varianze è uguale alla somma delle varianze dell'insieme di variabili iniziale, poiché il PCA è calcolato sulla matrice di covarianza, ovvero le variabili sono standardizzate (SD = 1, VAR = 1).
Supponi di avere una nuvola di N punti, diciamo, 3D (che può essere elencato in un array 100x3). Quindi, l'analisi dei componenti principali (PCA) adatta un ellissoide arbitrariamente orientato nei dati. Il punteggio del componente principale è la lunghezza dei diametri dell'ellissoide.
Nella direzione in cui il diametro è grande, i dati variano molto, mentre nella direzione in cui il diametro è piccolo, i dati variano litte. Se si desidera proiettare dati Nd in un diagramma a dispersione 2D, li si tracciano lungo i due componenti principali più grandi, perché con questo approccio si visualizza la maggior parte della varianza nei dati.
Mi piace pensare ai punteggi dei componenti principali come "sostanzialmente insignificanti" fino a quando non si dà loro un certo significato. Interpretare i punteggi dei PC in termini di "realtà" è un affare complicato - e non può davvero esserci un modo unico per farlo. Dipende da ciò che sai delle variabili particolari che stanno entrando nel PCA e da come si relazionano tra loro in termini di interpretazioni.
Per quanto riguarda la matematica, mi piace interpretare i punteggi PC come coordinate di ciascun punto, rispetto agli assi dei componenti principali. Quindi nelle variabili grezze che hai
Quindi puoi pensare agli autovettori come a descrivere dove sono le "linee rette" che descrivono i PC. Quindi i punteggi dei componenti principali descrivono la posizione di ciascun punto dati su ciascuna linea retta, in relazione al "centro" dei dati. Puoi anche pensare ai punteggi del PC in combinazione con i pesi / autovettori come una serie di previsioni di grado 1 per ciascuno dei punti di dati originali, che hanno la forma:
I componenti principali di una matrice di dati sono le coppie autovettore-autovalore della sua matrice varianza-covarianza. In sostanza, sono i pezzi decorrelati della varianza. Ognuna è una combinazione lineare delle variabili per un'osservazione - supponiamo che tu misuri w, x, y, z su ciascuno di un gruppo di soggetti. Il tuo primo PC potrebbe funzionare per essere qualcosa del genere
0,5w + 4x + 5y - 1,5z
I caricamenti (autovettori) qui sono (0,5, 4, 5, -1,5). Il punteggio (autovalore) per ciascuna osservazione è il valore risultante quando si sostituisce l'osservato (w, x, y, z) e si calcola il totale.
Ciò è utile quando si proiettano le cose sui loro componenti principali (ad esempio, rilevamento anomalo) perché si tracciano semplicemente i punteggi su ciascuno come si farebbe con qualsiasi altro dato. Questo può rivelare molto sui tuoi dati se gran parte della varianza è correlata (== nei primi PC).
Un output di R su PCA (un esempio falso) è simile al seguente. PC1, PC2 ... sono i componenti principali 1, 2 ... L'esempio seguente mostra solo i primi 8 componenti principali (su 17). Puoi anche estrarre altri elementi da PCA, come caricamenti e punteggi.
Importance of components:
PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8
Standard deviation 1.0889 1.0642 1.0550 1.0475 1.0387 1.0277 1.0169 1.0105
Proportion of Variance 0.0697 0.0666 0.0655 0.0645 0.0635 0.0621 0.0608 0.0601
Cumulative Proportion 0.0697 0.1364 0.2018 0.2664 0.3298 0.3920 0.4528 0.5129
I punteggi dei componenti principali sono un gruppo di punteggi ottenuti a seguito di un'analisi dei componenti principali (PCA). Nella PCA le relazioni tra un gruppo di punteggi vengono analizzate in modo tale da creare un numero uguale di nuove variabili "immaginarie" (ovvero componenti principali). La prima di queste nuove variabili immaginarie è correlata al massimo con tutto il gruppo originale di variabili. Il prossimo è un po 'meno correlato, e così via fino al punto che se si utilizzassero tutti i punteggi dei componenti principali per prevedere una data variabile dal gruppo iniziale, si sarebbe in grado di spiegarne tutta la varianza. Il modo in cui procede PCA è complesso e presenta alcune restrizioni. Tra questi c'è la restrizione che la correlazione tra due componenti principali (cioè variabili immaginarie) è zero; quindi non