Qual è la differenza tra l'analisi dei componenti principali e il ridimensionamento multidimensionale?

133

In cosa differiscono PCA e MDS classico? Che ne dici di MDS contro MDS non metrico? C'è un momento in cui preferiresti l'uno all'altro? In cosa differiscono le interpretazioni?

pca multidimensional-scaling pcoa

— Stephen Turner
fonte

96

L 'MDS metrico di Torgerson classico viene effettivamente fatto trasformando le distanze in somiglianze ed eseguendo PCA (decomposizione di automi o decomposizione di valore singolare) su quelli. [L'altro nome di questa procedura ( distances between objects -> similarities between them -> PCA, per cui i carichi sono le coordinate ricercate) è Principal Coordinate Analysis o PCoA .] Quindi, PCA potrebbe essere chiamato l'algoritmo dell'MDS più semplice.

L'MDS non metrico si basa sull'algoritmo iterativo ALSCAL o PROXSCAL (o algoritmo simile a loro) che è una tecnica di mappatura più versatile rispetto al PCA e può essere applicato anche all'MDS metrico. Mentre PCA mantiene m importanti dimensioni per te, ALSCAL / PROXSCAL adatta la configurazione a m dimensioni (tu pre-definisci m ) e riproduce le differenze sulla mappa in modo più diretto e accurato rispetto al solito PCA (vedi la sezione Illustrazione sotto).

Pertanto, MDS e PCA probabilmente non sono allo stesso livello per essere in linea o opposti l'uno all'altro. PCA è solo un metodo mentre MDS è una classe di analisi. Come mappatura, PCA è un caso particolare di MDS. D'altra parte, PCA è un caso particolare di analisi fattoriale che, essendo una riduzione dei dati, è più di una semplice mappatura, mentre MDS è solo una mappatura.

Per quanto riguarda la tua domanda su MDS metrico vs MDS non metrico, c'è poco da commentare perché la risposta è semplice. Se credo che le mie differenze di input siano così vicine alle distanze euclidee che una trasformazione lineare sarà sufficiente per mapparle nello spazio m-dimensionale, preferirò la MDS metrica. Se non ci credo, è necessaria la trasformazione monotonica, che implica l'uso di MDS non metrico.

Una nota sulla terminologia per un lettore. Il termine Classic (al) MDS (CMDS) può avere due significati diversi in una vasta letteratura sull'MDS, quindi è ambiguo e dovrebbe essere evitato. Una definizione è che CMDS è sinonimo di MDS metrico di Torgerson. Un'altra definizione è che CMDS è qualsiasi MDS (con qualsiasi algoritmo; analisi metrica o non metrica) con input a matrice singola (poiché esistono modelli che analizzano più matrici contemporaneamente - Modello individuale "INDSCAL" e modello replicato).

Illustrazione alla risposta . Alcune nuvole di punti (ellisse) vengono mappate su una mappa mds monodimensionale. Una coppia di punti è mostrata in punti rossi.

$\|D_o-D_m\|_2^2$ $\|D_o^2-D_m^2\|_1$ $\|D_o-D_m\|_1$

L'MDS basato su PCA (Torgerson's o PCoA) non è diretto. Riduce al minimo le distanze al quadrato tra gli oggetti nello spazio originale e le loro immagini sulla mappa. Questo non è un compito MDS abbastanza genuino; ha successo, come MDS, solo nella misura in cui gli assi principali junior scartati sono deboli. Se spiega una varianza molto maggiore rispetto a il primo da solo può sostanzialmente riflettere le distanze a coppie nella nuvola, specialmente per i punti distanti lungo l'ellisse. L'MDS iterativo vincerà sempre, soprattutto quando si desidera una mappa di dimensioni molto ridotte. Anche MDS iterativo avrà più successo quando un'ellisse del cloud è sottile, ma completerà il compito mds meglio di PCoA. Di proprietà della matrice a doppia centratura (descritta qui $P_1$ $P_2$ ) sembra che PCoA minimizzi , che è diverso da qualsiasi delle minimizzazioni di cui sopra. $\|D_o\|_2^2-\|D_m\|_2^2$

Ancora una volta, PCA proietta i punti del cloud sul sottospazio di risparmio più corporale più vantaggioso. Non proietta distanze a coppie , posizioni relative di punti su un sottospazio che risparmiano maggiormente in questo senso, come fa MDS iterativo. Tuttavia, storicamente PCoA / PCA è considerato tra i metodi di MDS metrico.

— ttnphns
fonte

3

(+1) Mi sono piaciute entrambe le risposte, questa probabilmente un po 'di più.

— Dmitrij Celov,

Il link del PDF relativo a PCoA. Può essere trovato su Web Archive: web.archive.org/web/20160315120635/http://forrest.psych.unc.edu/…

— Pierre

49

Uhm ... abbastanza diverso. In PCA, ti vengono dati i dati continui multivariati (un vettore multivariato per ogni soggetto) e stai cercando di capire se non hai bisogno di così tante dimensioni per concettualizzarli. In (metrico) MDS, ti viene data la matrice delle distanze tra gli oggetti e stai cercando di capire quali sono le posizioni di questi oggetti nello spazio (e se hai bisogno di uno spazio 1D, 2D, 3D, ecc.). In MDS non metrico, sai solo che gli oggetti 1 e 2 sono più distanti degli oggetti 2 e 3, quindi provi a quantificarlo, oltre a trovare le dimensioni e le posizioni.

Con un notevole tratto di immaginazione, puoi dire che un obiettivo comune di PCA e MDS è visualizzare oggetti in 2D o 3D. Ma dato quanto sono diversi gli input, questi metodi non saranno discussi come lontanamente correlati in nessun libro di testo multivariato. Immagino che tu possa convertire i dati utilizzabili per PCA in dati utilizzabili per MDS (diciamo, calcolando le distanze di Mahalanobis tra gli oggetti, usando la matrice di covarianza del campione), ma ciò comporterebbe immediatamente una perdita di informazioni: MDS è definito solo posizione e rotazione, e questi ultimi due possono essere eseguiti in modo più informativo con PCA.

Se dovessi mostrare brevemente a qualcuno i risultati dell'MDS non metrico e volessi dargli un'idea approssimativa di ciò che fa senza entrare nei dettagli, potrei dire:

Date le misure di somiglianza o dissomiglianza che abbiamo, stiamo cercando di mappare i nostri oggetti / soggetti in modo tale che le "città" che formano abbiano distanze tra loro più vicine a queste misure di somiglianza che possiamo farle. Tuttavia, potremmo mapparli perfettamente nello spazio dimensionale, quindi qui sto rappresentando le due dimensioni più informative - un po 'come quello che faresti in PCA se mostrassi un'immagine con i due principali componenti principali. $n$

— Stask
fonte

18

Un PCA non è applicato su una matrice di correlazione equivalente a un MDS con distanze euclidee calcolate su variabili standardizzate?

— chl

Quindi, se dovessi mostrare brevemente a qualcuno i risultati dell'MDS non metrico e volessi dargli un'idea approssimativa di ciò che fa senza entrare nei dettagli, potrei dire "questo fa qualcosa di simile al PCA" senza essere fuorviante?

— Freya Harrison,

6

Direi: "Date le misure di somiglianza o dissomiglianza che abbiamo, stiamo cercando di mappare i nostri oggetti / soggetti in modo tale che le" città "che formano abbiano distanze tra loro vicine a queste misure di somiglianza come possiamo realizzarli. Potremmo mapparli perfettamente solo nello spazio dimensionale, quindi qui sto rappresentando le dimensioni più informative - un po 'come quello che faresti in PCA se mostrassi un'immagine con i due principali componenti principali ".

n

$n$

— StasK

+1 Fantastico - per me questo commento lega bene la tua risposta. Grazie.

— Freya Harrison,

47

Due tipi di MDS metrico

Il compito del dimensionamento multidimensionale metrico (MDS) può essere formulato in modo astratto come segue: data una matrice di distanze a coppie tra punti, trova un incorporamento a bassa dimensione di punti dati in tale che Le distanze euclidee si avvicinano alle distanze indicate: $n\times n$ $\mathbf D$ $n$ $\mathbb R^k$

‖ x_{i} - x_{j} ‖ \approx D_{i j} .

$\|\mathbf x_i - \mathbf x_j\|\approx D_{ij}.$

Se "approssimativo" qui è inteso nel solito senso di errore di ricostruzione, cioè se l'obiettivo è minimizzare la funzione di costo chiamata "stress": quindi la soluzione non è equivalente a PCA. La soluzione non è data da alcuna formula chiusa e deve essere calcolata da un algoritmo iterativo dedicato.

Stress \sim ‖ D - ‖ x_{i} - x_{j} ‖ ‖^{2},

$\text{Stress} \sim \Big\|\mathbf D - \|\mathbf x_i - \mathbf x_j\|\Big\|^2,$

"MDS classico", noto anche come "MDS Torgerson", sostituisce questa funzione di costo con una funzione correlata ma non equivalente , denominata "tensione": che cerca di ridurre al minimo l'errore di ricostruzione dei prodotti scalari centrati anziché le distanze. Si scopre che può essere calcolato da (se sono distanze euclidee) e che minimizzare l'errore di ricostruzione di è esattamente ciò che fa PCA, come mostrato nella sezione successiva.

Strain \sim ‖ K_{c} - ⟨ x_{i}, x_{j} ⟩ ‖^{2},

$\text{Strain} \sim \Big\|\mathbf K_c - \langle\mathbf x_i, \mathbf x_j\rangle\Big\|^2,$

K_{c}

$\mathbf K_c$

D

$\mathbf D$

D

$\mathbf D$

K_{c}

$\mathbf K_c$

La MDS classica (Torgerson) sulle distanze euclidee è equivalente alla PCA

Consenti ai dati di essere raccolti in matrice di dimensioni con osservazioni in righe e caratteristiche in colonne. Sia la matrice centrata con la colonna sottratta. $\mathbf X$ $n \times k$ $\mathbf X_c$

Quindi PCA equivale a fare una scomposizione del valore singolare , con colonne di come componenti principali. Un modo comune per ottenerli è tramite una composizione eigend della matrice di covarianza , ma un altro modo possibile è eseguire una composizione eigend di la matrice Gram : i componenti principali sono i suoi autovettori ridimensionati dalle radici quadrate dei rispettivi autovalori. $\mathbf X_c = \mathbf {USV^\top}$ $\mathbf{US}$ $\frac{1}{n}\mathbf X_c^\top \mathbf X^\vphantom{\top}_c$ $\mathbf K_c = \mathbf X^\vphantom{\top}_c \mathbf X^\top_c=\mathbf U \mathbf S^2 \mathbf U^\top$

È facile vedere che , dove è una matrice di una. Da questo otteniamo immediatamente che dove è una matrice Gram di dati non centrati. Questo è utile: se disponiamo della matrice Gram di dati non centrati, possiamo centrarli direttamente, senza tornare a stesso. Questa operazione viene talvolta chiamata $\mathbf X_c = (\mathbf I - \frac{1}{n}\mathbf 1_n)\mathbf X$ $\mathbf 1_n$ $n \times n$

K_{c} = (I - \frac{1_{n}}{n}) K (I - \frac{1_{n}}{n}) = K - \frac{1_{n}}{n} K - K \frac{1_{n}}{n} + \frac{1_{n}}{n} K \frac{1_{n}}{n},

$\mathbf K_c = \left(\mathbf I - \frac{\mathbf 1_n}{n}\right)\mathbf K\left(\mathbf I - \frac{\mathbf 1_n}{n}\right) = \mathbf K - \frac{\mathbf 1_n}{n} \mathbf K - \mathbf K \frac{\mathbf 1_n}{n} + \frac{\mathbf 1_n}{n} \mathbf K \frac{\mathbf 1_n}{n},$

K = X X^{⊤}

$\mathbf K = \mathbf X \mathbf X^\top$

X

$\mathbf X$ doppio centraggio : nota che equivale a sottrarre media di riga e media di colonna da (e aggiungere nuovamente la media globale che viene sottratta due volte), in modo che sia la media di riga che la media di colonna di siano uguali a zero.

K

$\mathbf K$

K_{c}

$\mathbf K_c$

Consideriamo ora una matrice di distanze euclidee a coppie con. Questa matrice può essere convertita in per eseguire PCA? Si scopre che la risposta è sì. $n \times n$ $\mathbf D$ $D_{ij} = \|\mathbf x_i - \mathbf x_j\|$ $\mathbf K_c$

In effetti, secondo la legge dei coseni vediamo che Quindi differisce da solo per alcune costanti di riga e colonna (qui significa quadrato per elemento!). Ciò significa che se lo due volte, otterremo :

\begin{aligned} D_{i j}^{2} = ‖ x_{i} - x_{j} ‖^{2} & = ‖ x_{i} - \bar{x} ‖^{2} + ‖ x_{j} - \bar{x} ‖^{2} - 2 ⟨ x_{i} - \bar{x}, x_{j} - \bar{x} ⟩ \\ = ‖ x_{i} - \bar{x} ‖^{2} + ‖ x_{j} - \bar{x} ‖^{2} - 2 [K_{c}]_{i j} . \end{aligned}

$\begin{align} D_{ij}^2 = \|\mathbf x_i - \mathbf x_j\|^2 &= \|\mathbf x_i - \bar{\mathbf x}\|^2 + \|\mathbf x_j - \bar{\mathbf x}\|^2 - 2\langle\mathbf x_i - \bar{\mathbf x}, \mathbf x_j - \bar{\mathbf x} \rangle \\ &= \|\mathbf x_i - \bar{\mathbf x}\|^2 + \|\mathbf x_j - \bar{\mathbf x}\|^2 - 2[K_c]_{ij}. \end{align}$

- D^{2} / 2

$-\mathbf D^2/2$

K_{c}

$\mathbf K_c$

D^{2}

$\mathbf D^2$

K_{c}

$\mathbf K_c$

K_{c} = - (I - \frac{1_{n}}{n}) \frac{D^{2}}{2} (I - \frac{1_{n}}{n}) .

$\mathbf K_c = -\left(\mathbf I - \frac{\mathbf 1_n}{n}\right)\frac{\mathbf D^2}{2}\left(\mathbf I - \frac{\mathbf 1_n}{n}\right).$

Ciò significa che partendo dalla matrice delle distanze euclidee a coppie possiamo eseguire la PCA e ottenere i componenti principali. Questo è esattamente ciò che fa MDS (Torgerson) classico: , quindi il suo risultato è equivalente al PCA. $\mathbf D$ $\mathbf D \mapsto \mathbf K_c \mapsto \mathbf{US}$

Naturalmente, se viene scelta qualsiasi altra misura della distanza anziché, quindi l'MDS classico si tradurrà in qualcos'altro. $\|\mathbf x_i - \mathbf x_j\|$

Riferimento: gli elementi dell'apprendimento statistico , sezione 18.5.2.

— ameba
fonte

Devo ammettere che non ci ho ancora pensato: ma ecco un "controllo di plausibilità" di cui mi chiedo: dalle dimensioni delle matrici, la tua matrice Gram non dovrebbe essere che è ?

X X^{T}

$\mathbf X \mathbf X^T$

n \times n

$n \times n$

— cbeleites il

Grazie, @cbeleites, ovviamente hai ragione - è solo un errore di battitura. Lo risolverò ora. Fammi sapere se vedi altri errori (o sentiti libero di modificare direttamente).

— amoeba,

1

+1. E grazie per aver mostrato in matematica ciò che è stato affermato nel primo paragrafo della mia risposta.

— ttnphns,

2

+1 Vorrei che questa fosse la risposta accettata / migliore. Penso che meriti facilmente di esserlo.

— Zhubarb,

35

La PCA produce gli stessi risultati ESATTI dell'MDS classico se si utilizza la distanza euclidea.

Sto citando Cox & Cox (2001), p. 43-44:

Esiste una dualità tra un'analisi delle componenti dei principali e la PCO [analisi delle coordinate principali, nota anche come MDS classico] in cui le differenze sono date dalla distanza euclidea.

La sezione in Cox & Cox lo spiega abbastanza chiaramente:

Immagina di avere = attributi di prodotti per dimensione , media centrata $X$ $n$ $p$
La PCA si ottiene trovando autovettori della matrice di covarianza ~ (divisa per n-1) - chiama gli autovettori e gli autovalori . $X'X$ $\xi$ $\mu$
L'MDS si ottiene prima convertendo in matrice di distanza, qui, distanza euclidea, cioè , quindi trovando gli autovettori - chiama gli autovettori , e autovalori . $X$ $XX'$ $v$ $\lambda$
p 43: "È un risultato ben noto che gli autovalori di sono gli stessi di , insieme ad un autovelox np extra". Quindi, per , = $XX'$ $X'X$ $i < p$ $\mu_i$ $\lambda_i$
Tornando alla definizione di autovettori, considera gli autovalori . $i^{th}$ $X'Xv_i = \lambda_i v_i$
Premultiply con , otteniamo $v_i$ $X'$ $(X'X)X'v_i = \lambda_i X'v_i$
Abbiamo anche . Poiché , otteniamo che per . $X'X \xi_i = \mu_i \xi_i$ $\lambda_i = \mu_i$ $\xi_i = X'v_i$ $i<p$

— user1705135
fonte

2

Ho fatto un po 'di programmazione in R, e ho usato cmdscale come implementazione di MDS classico e prcomp per PCA - tuttavia il risultato non è lo stesso ... c'è qualche punto che mi manca ?!

— user4581

3

same results as classical MDS. Con "MDS classico" devi indicare qui l'MDS di Torgerson. Quindi l'affermazione è davvero vera, poiché l'MDS di Torgerson è in realtà PCA (a partire solo dalla matrice della distanza). Se definisci "MDS classico" in modo diverso (vedi la mia risposta), l'affermazione non è vera.

— ttnphns,

7

Aspetta, come mai XX 'fornisce la distanza euclidea ?? XX 'è un prodotto interno: se la matrice fosse standardizzata, darebbe la somiglianza del coseno. La distanza euclidea richiede una sottrazione e una radice quadrata.

— ShainaR,

@ user1705135 Sono confuso dal tuo punto 5. Non dovrebbe essere ?

X X^{'} v_{i} = λ_{i} v_{i}

$XX'v_i = \lambda_i v_i$

— Michael,

4

Confronto: "Metric MDS fornisce il risultato SAME come PCA" - proceduralmente - quando osserviamo il modo in cui SVD viene utilizzato per ottenere il massimo. Ma i criteri ad alta dimensione conservati sono diversi. PCA utilizza una matrice di covarianza centrata mentre MDS utilizza una matrice di grammi ottenuta da matrici di distanza a doppio centraggio.

Metterà matematicamente la differenza: PCA può essere visto come massimizzando su sotto vincoli che è ortogonale, dando così assi / componenti principali. In multidimensionale scalare una matrice grammo (una matrice PSD che può essere rappresentato come ) viene calcolato dalla grande distanza euclidea tra righe e seguenti è ridotta al minimo sopra . minimizza: . $Tr(X^T(I-\frac{1}{n}ee^T)X)$ $X$ $X$ $Z^TZ$ $X$ $Y$ $||G-Y^TY||_{F}^{2}$

— carro funebre
fonte