PCA è uno dei molti modi per analizzare la struttura di una data matrice di correlazione. Per costruzione, il primo asse principale è quello che massimizza la varianza (riflessa dal suo autovalore) quando i dati sono proiettati su una linea (che sta per una direzione nello spazio dimensionale, supponendo che tu abbia variabili) e il secondo è ortogonale ad esso e massimizza ancora la varianza rimanente. Questo è il motivo per cui l'uso dei primi due assi dovrebbe produrre la migliore approssimazione dello spazio delle variabili originali (diciamo, una matrice di dim ) quando viene proiettato su un piano.p X n × pppXn×p
I componenti principali sono solo combinazioni lineari delle variabili originali. Pertanto, tracciare i punteggi dei singoli fattori (definiti come , dove è il vettore dei caricamenti di qualsiasi componente principale) può aiutare ad evidenziare gruppi di individui omogenei, ad esempio, o interpretare il proprio punteggio complessivo quando si considerano tutte le variabili contemporaneamente. In altre parole, questo è un modo per riassumere la propria posizione rispetto al suo valore au p r ( x 1 , x 2 ) = cos 2 ( x 1 , x 2 )Xuupvariabili o una loro combinazione. Nel tuo caso, la Fig. 13.3 in HSAUR mostra che Joyner-Kersee (Jy-K) ha un punteggio alto (negativo) sul 1 ° asse, suggerendo che si è comportato abbastanza bene su tutti gli eventi. Lo stesso ragionamento si applica all'interpretazione del secondo asse. Dò un'occhiata molto breve alla figura, quindi non entrerò nei dettagli e la mia interpretazione è certamente superficiale. Presumo che troverai ulteriori informazioni nel libro di testo di HSAUR. Qui vale la pena notare che sia le variabili che gli individui sono mostrati sullo stesso diagramma (questo si chiama biplot), che aiuta a interpretare gli assi fattoriali osservando la posizione degli individui. Di solito, tracciamo le variabili in un cosiddetto cerchio di correlazione (in cui l'angolo formato da due variabili qualsiasi, rappresentato qui come vettori, riflette la loro effettiva correlazione a coppie, poiché ).r(x1,x2)=cos2(x1,x2)
Penso, tuttavia, è meglio iniziare a leggere alcuni libri introduttivi sull'analisi multivariata per ottenere una visione approfondita dei metodi basati su PCA. Ad esempio, BS Everitt ha scritto un eccellente libro di testo su questo argomento, An R and S-Plus ® Companion to Multivariate Analysis , ed è possibile controllare il sito Web associato per l'illustrazione. Esistono altri fantastici pacchetti R per l'analisi dei dati multivariati applicati, come ade4 e FactoMineR .