Perché ci sono solo


22

Nel PCA, quando il numero di dimensioni è maggiore (o addirittura uguale a) del numero di campioni N , perché avrai al massimo N - 1 autovettori diversi da zero? In altre parole, il rango della matrice di covarianza tra le dimensioni d N è N - 1 .dNN1dNN1

Esempio: i tuoi campioni sono immagini vettoriali, che hanno dimensione , ma hai solo N = 10 immagini.d=640×480=307200N=10


5
Immagina punti in 2D o in 3D. Qual è la dimensionalità della varietà che questi punti stanno occupando? La risposta è N - 1 = 1 : due punti si trovano sempre su una linea (e una linea è monodimensionale). L'esatta dimensionalità dello spazio non ha importanza (purché sia ​​maggiore di N ), i tuoi punti occupano solo un sottospazio monodimensionale. Quindi la varianza è solo "diffusa" in questo sottospazio, cioè lungo 1 dimensione. Questo rimane vero per qualsiasi N . N=2N1=1NN
ameba dice di reintegrare Monica il

1
Aggiungerei solo un'ulteriore precisione al commento di @ amoeba. Anche il punto di origine è importante. Quindi, se hai N = 2 + origine, il numero di dimensioni è al massimo 2 (non 1). Tuttavia, in PCA di solito centriamo i dati, il che significa che mettiamo l'origine all'interno dello spazio del cloud di dati - quindi una dimensione viene consumata e la risposta sarà "N-1", come mostrato da ameba.
ttnphns,

Questo è ciò che mi confonde. Non è il centraggio in sé che distrugge la dimensione, giusto? Se hai esattamente N campioni e N dimensioni, anche dopo il centraggio hai ancora N autovettori ..?
GrokingPCA

2
Perché? È la centratura che distrugge una dimensione. Il centraggio (con media aritmetica) "sposta" l'origine dall'esterno nello spazio "attraversato" dai dati. Con l'esempio di N = 2. 2 punti + alcune origini generalmente si estendono su un piano. Quando si centrano questi dati, si posiziona l'origine su una linea retta a metà strada tra i 2 punti. Quindi, i dati ora coprono solo la linea.
ttnphns,

3
Euclide lo sapeva già 2300 anni fa: due punti determinano una linea, tre punti determinano un piano. Generalizzando, punti determinano uno spazio euclideo di dimensione N - 1 . NN1
whuber

Risposte:


20

Considera cosa fa PCA. In parole povere, PCA (come più comunemente eseguito) crea un nuovo sistema di coordinate:

  1. spostando l'origine sul centroide dei tuoi dati,
  2. stringe e / o allunga gli assi per renderli uguali in lunghezza, e
  3. ruota i tuoi assi in un nuovo orientamento.

(Per maggiori dettagli, vedere questo eccellente thread CV: dare un senso all'analisi dei componenti principali, autovettori e autovalori .) Tuttavia, non ruota solo gli assi in un modo vecchio. La tua nuova (il primo componente principale) è orientata nella direzione della variazione massima dei tuoi dati. Il secondo componente principale è orientato nella direzione della successiva maggiore quantità di variazione che è ortogonale al primo componente principale . I componenti principali rimanenti sono formati allo stesso modo. X1

Con questo in mente, esaminiamo l'esempio di @ amoeba . Ecco una matrice di dati con due punti in uno spazio tridimensionale:
Vediamo questi punti in un diagramma a dispersione tridimensionale (pseudo):

X=[111222]

enter image description here

(1.5,1.5,1.5)(0,0,0)(3,3,3)(0,0,3)(3,3,0)(0,3,0)(3,0,3)

N=2N1=1

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.