Cosa si chiama esattamente "componente principale" in PCA?


18

Supponiamo è il vettore che massimizza la varianza della proiezione dei dati a matrice disegno X .uX

Ora, ho visto i materiali che fanno riferimento come il (primo) componente principale dei dati, che è anche il più grande autovettore con autovalore.u

Tuttavia, ho anche visto che il componente principale dei dati è .Xu

Ovviamente, ed e X u sono cose diverse. Qualcuno può aiutarmi qui e dirmi qual è la differenza tra queste due definizioni dei componenti principali?uXu


L'autovettore u è la direzione dell'asse (i valori di u sono la direzione dei coseni rispetto agli assi originali). Xu sono i dati stessi, i valori del componente principale, le coordinate sull'asse sopra menzionato).
ttnphns,

Risposte:


25

Hai assolutamente ragione nell'osservare che anche se (uno degli autovettori della matrice di covarianza, ad esempio il primo) e X u (proiezione dei dati sul sottospazio monodimensionale attraversato da u ) sono due cose diverse, entrambe spesso vengono chiamati "componente principale", a volte anche nello stesso testo.uXuu

Nella maggior parte dei casi è chiaro dal contesto cosa si intende esattamente. In alcuni casi rari, tuttavia, può essere anche assai confusione, ad esempio quando alcune tecniche correlate (come sparso PCA o CCA) sono discusse, dove diverse direzioni non devono essere ortogonali. In questo caso un'affermazione come "componenti sono ortogonali" ha significati molto diversi a seconda che si riferisca ad assi o proiezioni.uio

Suggerirei di "asse principale" o "direzione principale" e X u "componente principale".uXu

Ho visto anche chiamato "vettore principale componente".u

Devo dire che la convenzione alternativa è quella di chiamare "componente principale" e X U "punteggi delle componenti principali".uXu

Riepilogo delle due convenzioni:

Convenzione 1Convenzione 2u{asse principaledirezione principalevettore componente principalecomponenti principaliXucomponenti principalipunteggi dei componenti principali

Nota: solo gli autovettori della matrice di covarianza corrispondenti a autovalori diversi da zero possono essere chiamati direzioni / componenti principali. Se la matrice di covarianza è di livello basso, avrà uno o più autovalori zero; gli autovettori corrispondenti (e le proiezioni corrispondenti che sono costanti zero) non devono essere chiamati direzioni / componenti principali. Vedi alcune discussioni nella mia risposta qui.


1
La Convenzione 2 dovrebbe essere messa al bando. Ha la capacità di creare senza fine confusione per i principianti in quanto unisce vettori di base e componenti di vettori di dati rispetto alla base.
congetture

che dire della definizione di Loadings? I caricamenti sono i singoli valori dell'autovettore u?
Mak


@amoeba grazie! un'ultima domanda. In SVD, per X = USVh (Vh: V trasposto) se gli autovettori sono le colonne di U, allora posso chiamare Vh come caricamenti?
Makis,

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.