Esistono molti modi diversi per produrre un biplot PCA e quindi non esiste una risposta unica alla tua domanda. Ecco una breve panoramica.
Partiamo dal presupposto che la matrice di dati ha n punti di dati in righe ed è centrata (ovvero i mezzi di colonna sono tutti zero). Per ora, non assumiamo che sia stato standardizzato, ovvero consideriamo il PCA sulla matrice di covarianza (non sulla matrice di correlazione). PCA equivale a una scomposizione del valore singolare X = U S V ⊤ , puoi vedere la mia risposta qui per i dettagli: Relazione tra SVD e PCA. Come utilizzare SVD per eseguire PCA?Xn
X=USV⊤,
In un biplot PCA, due primi componenti principali vengono tracciati come un diagramma a dispersione, ovvero la prima colonna di viene tracciata contro la sua seconda colonna. Ma la normalizzazione può essere diversa; ad esempio si può usare:U
- Colonne di : sono componenti principali ridimensionati in base alla somma unitaria dei quadrati;U
- Colonne di : sono componenti principali standardizzati (varianza unitaria);n−1−−−−−√U
- Colonne di : sono componenti principali "grezzi" (proiezioni sulle direzioni principali).US
Inoltre, le variabili originali sono tracciate come frecce; cioè coordinate di un i -esimo freccia endpoint sono nei valore -esimo nella prima e nella seconda colonna di V . Ma ancora una volta, si possono scegliere diverse normalizzazioni, ad esempio:(x,y)iiV
- Colonne di : Non so quale potrebbe essere un'interpretazione qui;VS
- Colonne di : sono caricamenti;VS/n−1−−−−−√
- Colonne di : questi sono assi principali (aka direzioni principali, aka autovettori).V
Ecco come appare tutto ciò per il set di dati Fisher Iris:
9XUSαβVS(1−α)/β9 sono "bipoti propri": vale a dire una combinazione di qualsiasi sottotrama dall'alto con quella direttamente sotto.
[Qualunque combinazione si usi, potrebbe essere necessario ridimensionare le frecce in base a un fattore costante arbitrario in modo che sia le frecce sia i punti dati appaiano approssimativamente sulla stessa scala.]
VS/n−1−−−−−√Un−1−−−−−√
È probabile che questa [scelta particolare] fornisca un aiuto grafico molto utile nell'interpretazione di matrici multivariate di osservazioni, purché ovviamente queste possano essere adeguatamente approssimate al secondo posto.
USV
US
biplot
UVSbiplot
0.8biplot
n/(n−1)1Frecce delle variabili sottostanti nel biplot PCA in R. )
PCA su matrice di correlazione
X1
1R=1
Ulteriori letture: