Spiegare i passaggi dell'algoritmo LLE (local linear embedding)?

Comprendo che il principio di base dietro l'algoritmo per LLE consiste in tre passaggi.

Individuazione del vicinato di ciascun punto dati mediante una metrica come k-nn.
Trova pesi per ciascun vicino che denotano l'effetto che il vicino ha sul punto dati.
Costruire l'incorporamento a bassa dimensione dei dati in base ai pesi calcolati.

Ma la spiegazione matematica dei passaggi 2 e 3 è confusa in tutti i libri di testo e le risorse online che ho letto. Non sono in grado di ragionare sul perché vengano utilizzate le formule.

Come vengono eseguiti in pratica questi passaggi? Esiste un modo intuitivo per spiegare le formule matematiche utilizzate?

Riferimenti: http://www.cs.nyu.edu/~roweis/lle/publications.html

— User1234321232
fonte

L'incorporamento lineare locale (LLE) elimina la necessità di stimare la distanza tra oggetti distanti e recupera la struttura non lineare globale mediante adattamenti lineari locali. LLE è vantaggioso perché non comporta parametri come tassi di apprendimento o criteri di convergenza. LLE si adatta bene anche alla dimensione intrinseca di . La funzione obiettivo per LLE è La matrice di peso elementi per gli oggetti e sono impostati a zero se $\mathbf{Y}$

ζ (Y) = (Y - W Y)^{2} = Y^{⊤} (I - W)^{⊤} (I - W) Y

$\begin{equation} \zeta(\mathbf{Y})=(\mathbf{Y}- \mathbf{WY})^2\\ \quad \quad \quad \quad \quad\quad \quad = \mathbf{Y}^\top (\mathbf{I}-\mathbf{W})^\top (\mathbf{I}-\mathbf{W})\mathbf{Y} \end{equation}$

W

$\mathbf{W}$

w_{i j}

$w_{ij}$

i

$i$

j

$j$

j

$j$ non è il vicino più vicino di , altrimenti i pesi per i vicini K-vicini dell'oggetto sono determinati mediante un minimo di adattamenti di dove la variabile dipendente è un vettore di uno, è una matrice Gram per tutti i vicini più vicini dell'oggetto e è un vettore di pesi che seguono vincoli di somma in unità. Sia un semidefinito positivo simmetrico

i

$i$

i

$i$

U = G β

$\begin{equation} \mathbf{U}=\mathbf{G}\boldsymbol{\beta} \end{equation}$

U

$\mathbf{U}$

K \times 1

$K \times 1$

G

$\mathbf{G}$

K \times K

$K \times K$

i

$i$

β

$\boldsymbol{\beta}$

K \times 1

$K \times 1$

D

$\mathbf{D}$

K \times K

$K \times K$

matrice della distanza per tutte le coppie dei vicini K-più vicini dell'oggetto -dimensionale . Si può dimostrare che è uguale alla matrice della distanza doppiamente centrata con elementi I coefficienti di regressione sono determinati numericamente usando

p

$p$

x_{i}

$\mathbf{x}_i$

G

$\mathbf{G}$

τ

$\boldsymbol{\tau}$

τ_{l m} = - \frac{1}{2} (d_{l m}^{2} - \frac{1}{K} \sum_{l} d_{l m}^{2} - \frac{1}{K} \sum_{m} d_{l m}^{2} + \sum_{l} \sum_{m} d_{l m}^{2}) .

$\begin{equation} \tau_{lm}=-\frac{1}{2} \left( d_{lm}^2 - \frac{1}{K}\sum_l d_{lm}^2 - \frac{1}{K}\sum_m d_{lm}^2 + \sum_l\sum_m d_{lm}^2 \right). \end{equation}$

K

$K$

\underset{K \times 1}{β} = {\underset{K \times K}{(τ^{⊤} τ)}}^{- 1} \underset{K \times 1}{τ^{⊤} U},

$\begin{equation} \underset{K \times 1}{\boldsymbol{\beta}}=\underset{K \times K}{(\boldsymbol{\tau}^\top \boldsymbol{\tau})}^{-1}\underset{K \times 1}{\boldsymbol{\tau}^\top\mathbf{U}}, \end{equation}$ e vengono controllati per confermare che si sommano all'unità. I valori di sono incorporati nella riga di nelle varie posizioni della colonna corrispondenti ai vicini K più vicini dell'oggetto , nonché agli elementi di trasposizione. Questo si ripete per ogni esimo oggetto nell'insieme di dati. Vale la pena notare che se il numero dei vicini più vicini è troppo basso, allora può essere scarso e rendere difficile l'autovalisi. È stato osservato che vicini più vicini hanno portato a

β

$\boldsymbol{\beta}$

i

$i$

W

$\mathbf{W}$

i

$i$

i

$i$

K

$K$

W

$\mathbf{W}$

K = 9

$K=9$

W

$\mathbf{W}$ matrici che non contenevano patologie durante l'autovalisi. La funzione obiettiva viene minimizzata trovando gli autovalori non zero più piccoli di La forma ridotta di è rappresentata da dove ha dimensioni basate sui due autovalori più bassi di .

(I - W)^{⊤} (I - W) E = Λ D E .

$\begin{equation} (\mathbf{I}-\mathbf{W})^\top(\mathbf{I}-\mathbf{W})\mathbf{E}=\boldsymbol{\Lambda}\mathbf{D}\mathbf{E}. \end{equation}$

X

$\mathbf{X}$

Y = E

$\mathbf{Y}=\mathbf{E}$

E

$\mathbf{E}$

n \times 2

$n \times 2$

Λ

$\boldsymbol{\Lambda}$

— Logica NXG
fonte

"K = 9 vicini più vicini" Questo non dipende dalla dimensionalità di ? Ad esempio, se ha meno di 9 dimensioni, la matrice di peso non viene determinata in modo univoco. Questo causa problemi con LLE?

Y

$Y$

Y

$Y$

W

$W$

— Scott

Sì, ma se ci sono, diciamo, 8 dimensioni, per i dati casuali letteralmente ogni punto può essere scritto perfettamente come una combinazione lineare di altri 9, in un numero infinito di modi.

— Scott

Esistono sempre scenari "what if" durante l'implementazione di una tecnica ed è per questo che vengono utilizzati i vincoli dei parametri.

— NXG Logic