Come proiettare uno spazio ad alta dimensione in un piano bidimensionale?


11

Ho un set di punti dati in uno spazio N-dimensionale. Inoltre, ho anche un centroide in questo stesso spazio N-dimensionale. Esistono approcci che possono permettermi di proiettare questi punti di dati in uno spazio bidimensionale mantenendo le informazioni relative alla distanza nello spazio originale. PCA è quello corretto?


1
Se vuoi provare a preservare le distanze, il mio primo pensiero sarebbe stato il ridimensionamento multidimensionale delle distanze stesse (che è correlato alla PCA), ma dal momento che hai le posizioni e non solo le distanze, secondo la mia comprensione, PCA dovrebbe funzionare per quello .
Glen_b

1
@Glen_b, Il punto chiave non è che MDS è per l'immissione delle distanze e PCA è per l'immissione delle coordinate, ma che MDS iterativo si adatta a poche dimensioni mentre PCA mantiene poche dimensioni. Quindi MDS mantiene le distanze un po 'meglio rispetto al classico PCA. La risposta alla domanda è Sì, PCA è adatto, ma MDS è più adatto.
ttnphns

1
Ciò è ampiamente studiato nel campo dell'incorporazione dello spazio metrico , ovvero come è possibile ridurre la dimensionalità dei dati minimizzando la distorsione delle distanze.
Bitwise,

Risposte:


6

Un quadro generale che affronta il tuo problema si chiama riduzione della dimensionalità. Desideri proiettare i dati da N dimensioni a 2 dimensioni, preservando le "informazioni essenziali" nei tuoi dati. Il metodo più adatto dipende dalla distribuzione dei dati, ovvero dalla varietà N-dimensionale. Il PCA si adatta ad un piano usando il criterio dei minimi quadrati. Questo probabilmente funzionerà male per l'esempio "swiss roll": swiss roll .

I metodi più moderni includono Kernel PCA, LLE, mappe di diffusione e rappresentazioni di dizionari sparsi. Per quanto riguarda la conservazione della distanza, alcuni metodi possono preservare le distanze non euclidee.


2
È importante notare che i metodi di "riduzione della dimensionalità" in genere non mantengono le "informazioni sulla distanza relativa". Se lo fanno o meno dipende in parte dal metodo e in parte dalla "distanza" prevista.
whuber

2

Come menzionato nella risposta precedente, ci sono una serie di metodi per ridurre la dimensionalità e una cosa importante da considerare è cosa stai cercando di rappresentare: sei interessato alle misure della distanza euclidea? O una metrica di somiglianza tra i campioni?

Per il primo, PCA può essere appropriato. È comunemente usato con misure continue come misure di campioni (animali, piante, ecc ...). Vorrei esaminare le menzioni più moderne anche nella risposta precedente.

Per quest'ultimo, dove potresti provare a confrontare la somiglianza usando una metrica della distanza non euclidea, esistono alcuni buoni metodi come l'ordinazione dei componenti del principio (PCoA) e il ridimensionamento multidimensionale non metrico (NMDS). Un esempio di quando potresti usarli è quando stai confrontando le comunità ecologiche tra aree diverse e hai un numero di diversi tipi di organismi che sono stati trovati. Quindi, i tuoi dati sono "contano" dati. Esistono numerose metriche di somiglianza come Jaccard, Sorensen, Bray-Curtis, che consentono di stimare in modo efficace quanto i siti siano simili nella loro composizione di organismi. PCoA e NMDS consentono sostanzialmente di tracciare i campioni (siti) per rappresentare la distanza ecologica (somiglianza) e di avere un punteggio per il sito su ciascun asse.

Ci sono molti buoni libri e altre risorse per l'analisi multivariata. Cerca "Ordinazione" su Google. Inoltre, c'è un pacchetto R chiamato 'vegan' che è davvero buono per svolgere davvero molto di questo lavoro.


0

Il tuo problema sembra un'applicazione da manuale per il ridimensionamento multidimensionale . Una buona introduzione è disponibile qui: http://www.mathpsyc.uni-bonn.de/doc/delbeke/delbeke.htm

Ovviamente puoi provare PCA. Ma PCA non ha intenzione di conservare le informazioni relative alla distanza nello spazio originale.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.