Cosa si intende per PCA preservando solo grandi distanze a coppie?


10

Attualmente sto leggendo la tecnica di visualizzazione t-SNE ed è stato menzionato che uno degli svantaggi dell'utilizzo dell'analisi dei componenti principali (PCA) per la visualizzazione di dati ad alta dimensione è che conserva solo grandi distanze a coppie tra i punti. I punti di significato che sono distanti nello spazio ad alta dimensione apparirebbero anche distanti nello spazio secondario a bassa dimensione, ma a parte questo, tutte le altre distanze a coppie verrebbero rovinate.

Qualcuno potrebbe aiutarmi a capire perché è questo e cosa significa graficamente?


La PCA è strettamente correlata alle distanze euclidea e mahalanobis, che sono miopi in dimensioni superiori, non possono vedere piccole distanze.
Aksakal,

Si noti inoltre che PCA, visto come MDS metrico più semplice, riguarda la ricostruzione di distanze euclidee quadrate sommate . Forte, soffre la precisione per le piccole distanze.
ttnphns,

Risposte:


8

Considerare il seguente set di dati:

Set di dati PCA

L'asse PC1 sta massimizzando la varianza della proiezione. Quindi in questo caso ovviamente andrà in diagonale dall'angolo in basso a sinistra a quello in alto a destra:

PCA preservando solo grandi distanze a coppie

La maggiore distanza a coppie nell'insieme di dati originale è tra questi due punti periferici; si noti che è quasi esattamente conservato nel PC1. Distanze di coppia più piccole ma comunque sostanziali sono tra ciascuno dei punti periferici e tutti gli altri punti; anche quelli sono ragionevolmente conservati. Ma se osservi le distanze a coppie ancora più piccole tra i punti nel cluster centrale, vedrai che alcuni di essi sono fortemente distorti.

Penso che questo dia la giusta intuizione: il PCA trova sottospazi a bassa dimensione con varianza massima. La varianza massima significa che il sottospazio tenderà ad essere allineato in modo da avvicinarsi ai punti distanti dal centro; pertanto le distanze maggiori a coppie tenderanno ad essere preservate bene e le più piccole meno.

1010×1010×10infatti è meglio conservato proprio da PC1 (vedi la mia risposta lì per la prova). E si può sostenere che le grandi distanze a coppie significano anche prodotti scalari di grandi dimensioni; infatti, uno degli algoritmi MDS (MDS classico / Torgerson) è disposto a fare esplicitamente questo presupposto.

Quindi per riassumere:

  1. PCA mira a preservare la matrice dei prodotti scalari a coppie, nel senso che la somma delle differenze quadrate tra i prodotti scalari originali e ricostruiti dovrebbe essere minima.
  2. Ciò significa che conserverà piuttosto i prodotti scalari con il valore assoluto più grande e si preoccuperà meno di quelli con un valore assoluto ridotto, poiché aggiungono meno alla somma degli errori quadrati.
  3. Quindi, PCA conserva prodotti scalari più grandi meglio di quelli più piccoli.
  4. Le distanze a coppie verranno preservate solo nella misura in cui sono simili ai prodotti scalari, come spesso accade ma non sempre. In tal caso, anche le distanze a coppie più grandi verranno preservate meglio di quelle più piccole.

Non penso che questo sia un aspetto visivo giusto. Non mostra come le cose peggiorino con l'aumento della dimensionalità
Aksakal,

2
Non sono sicuro di aver capito il tuo punto, @Aksakal. Valuta di pubblicare una risposta alternativa con il tuo punto di vista. Penso che l'effetto di preservare meglio distanze a coppie maggiori sia minori sia già presente in 2D, e non è necessario pensare all'alta dimensionalità per capire cosa sta succedendo. Quindi mi sono concentrato su un semplice esempio 2D.
amoeba,

Quello che hai disegnato sarebbe applicabile a qualsiasi metodo. Posso mettere un paio di punti molto lontani e sostenere che prevalgono sugli altri. Il problema con le distanze euclide è che la loro gamma dinamica si riduce con l'aumento della dimensionalità
Aksakal

+1, ma vorrei spostare un accento, in qualche modo diverso da te (punto 4 per lo più). Il fatto non è che queste siano distanze e che siano prodotti scalari (la matrice della "doppia centratura") - dopo tutto, data la diagonale, conservano informazioni identiche. Piuttosto, il problema è esattamente analogo alle probabilità dell'analisi PCA vs Factor. Il PCoA di Torgerson, come PCA, mirerà a massimizzare la ricostruzione della sc. prod. matrice principalmente tramite la sua diagonale, non controllando in modo specifico come verranno adattate le voci fuori diagonale.
ttnphns,

(cont.) La traccia della diagonale menzionata è la variabilità complessiva ed è direttamente correlata alla somma di tutte le distanze quadrate a coppie, lasciando indietro le singole distanze. Potrebbe essere formulato anche in termini di teorema di Eckart-Young che afferma che il cloud di dati ricostruito da PCA è più vicino in termini di somma dei quadrati a quello originale; cioè, la distanza complessiva quadrata tra i vecchi punti e i loro punti proiettati dalla PCA è minima. Questo non è lo stesso delle vecchie distanze a coppie - nuove relazioni di distanze pw.
ttnphns,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.