Interpretazione dei biplot nell'analisi dei componenti principali


30

Mi sono imbattuto in questo simpatico tutorial: un manuale di analisi statistiche usando R. Capitolo 13. Analisi dei componenti principali: l'eptatlon olimpico su come eseguire la PCA in linguaggio R. Non capisco l'interpretazione della Figura 13.3:

biplot

Quindi sto tramando il primo autovettore contro il secondo autovettore. Cosa significa? Supponiamo che l'autovalore corrispondente al primo autovettore spieghi il 60% della variazione nel set di dati e il secondo autovalore-autovettore spieghi il 20% della variazione. Che cosa significa tracciarli l'uno contro l'altro?


Risposte:


22

PCA è uno dei molti modi per analizzare la struttura di una data matrice di correlazione. Per costruzione, il primo asse principale è quello che massimizza la varianza (riflessa dal suo autovalore) quando i dati sono proiettati su una linea (che sta per una direzione nello spazio dimensionale, supponendo che tu abbia variabili) e il secondo è ortogonale ad esso e massimizza ancora la varianza rimanente. Questo è il motivo per cui l'uso dei primi due assi dovrebbe produrre la migliore approssimazione dello spazio delle variabili originali (diciamo, una matrice di dim ) quando viene proiettato su un piano.p X n × pppXn×p

I componenti principali sono solo combinazioni lineari delle variabili originali. Pertanto, tracciare i punteggi dei singoli fattori (definiti come , dove è il vettore dei caricamenti di qualsiasi componente principale) può aiutare ad evidenziare gruppi di individui omogenei, ad esempio, o interpretare il proprio punteggio complessivo quando si considerano tutte le variabili contemporaneamente. In altre parole, questo è un modo per riassumere la propria posizione rispetto al suo valore au p r ( x 1 , x 2 ) = cos 2 ( x 1 , x 2 )Xuupvariabili o una loro combinazione. Nel tuo caso, la Fig. 13.3 in HSAUR mostra che Joyner-Kersee (Jy-K) ha un punteggio alto (negativo) sul 1 ° asse, suggerendo che si è comportato abbastanza bene su tutti gli eventi. Lo stesso ragionamento si applica all'interpretazione del secondo asse. Dò un'occhiata molto breve alla figura, quindi non entrerò nei dettagli e la mia interpretazione è certamente superficiale. Presumo che troverai ulteriori informazioni nel libro di testo di HSAUR. Qui vale la pena notare che sia le variabili che gli individui sono mostrati sullo stesso diagramma (questo si chiama biplot), che aiuta a interpretare gli assi fattoriali osservando la posizione degli individui. Di solito, tracciamo le variabili in un cosiddetto cerchio di correlazione (in cui l'angolo formato da due variabili qualsiasi, rappresentato qui come vettori, riflette la loro effettiva correlazione a coppie, poiché ).r(x1,x2)=cos2(x1,x2)

Penso, tuttavia, è meglio iniziare a leggere alcuni libri introduttivi sull'analisi multivariata per ottenere una visione approfondita dei metodi basati su PCA. Ad esempio, BS Everitt ha scritto un eccellente libro di testo su questo argomento, An R and S-Plus ® Companion to Multivariate Analysis , ed è possibile controllare il sito Web associato per l'illustrazione. Esistono altri fantastici pacchetti R per l'analisi dei dati multivariati applicati, come ade4 e FactoMineR .


Potrei sbagliarmi ma non è la correlazione a coppie tra due vettori non ? cos 2 ( x 1 , x 2 )r(x1,x2)=cos(x1,x2)cos2(x1,x2)
hlinee,

21

La trama mostra:

  • il punteggio di ciascun caso (cioè atleta) sui primi due componenti principali
  • il caricamento di ciascuna variabile (cioè ogni evento sportivo) sui primi due componenti principali.

Gli assi sinistro e inferiore mostrano i punteggi dei componenti principali [normalizzati]; gli assi superiore e destro mostrano i carichi.

In generale si presume che due componenti spieghino una quantità sufficiente della varianza per fornire una rappresentazione visiva significativa della struttura di casi e variabili.

Puoi guardare per vedere quali eventi sono vicini nello spazio. In questo caso, ciò può suggerire che gli atleti che sono bravi in ​​un evento possono anche essere bravi negli altri eventi prossimali. In alternativa puoi usare la trama per vedere quali eventi sono distanti. Ad esempio, il giavellotto sembra essere un po 'anomalo e un evento importante che definisce il secondo componente principale. Forse un diverso tipo di atleta è bravo nel giavellotto di quanto non lo sia nella maggior parte degli altri eventi.

Certo, si potrebbe dire di più sull'interpretazione sostanziale.



Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.