Perché preoccuparsi di approssimazioni di basso rango?


20

Se si dispone di una matrice con n righe e colonne m, è possibile utilizzare SVD o altri metodi per calcolare un'approssimazione di basso rango della matrice data.

Tuttavia, l'approssimazione di basso rango avrà ancora n righe e m colonne. In che modo le approssimazioni di basso rango possono essere utili per l'apprendimento automatico e l'elaborazione del linguaggio naturale, dato che ti rimane lo stesso numero di funzioni?


2
Di solito hanno rappresentazioni sparse: non è necessario memorizzare numeri per un'approssimazione di basso rango. Ad esempio, un'approssimazione di rango 1 richiede numeri n + m . mnn+m
Probislogic,

Risposte:


16

Un basso rango ravvicinamento X di X può essere scomposto in una radice quadrata matrice come G = U r λ 1X^Xdove la decomposizione eigen diXèUλUT, riducendo così il numero di funzioni, che può essere rappresentato daGbasano sul rango-r approssimazione comeX=GGT. Si noti che il pedicer rappresenta il numero di autovettori e di autovalori utilizzati nell'approssimazione. Quindi, riduce il numero di funzionalità per rappresentare i dati. In alcuni esempi le approssimazioni di basso rango sono considerate come espansioni di base o variabili latenti (dizionario) dei dati originali, sotto vincoli speciali come ortogonalità, non negatività (fattorizzazione a matrice non negativa) ecc.G=Urλr12XUλUTGX^=GGTr


5

Il punto di approssimazione di basso rango non è necessariamente solo per eseguire la riduzione dimensionale.

L'idea è che in base alla conoscenza del dominio, i dati / voci della matrice renderanno in qualche modo la matrice di livello inferiore. Ma questo è il caso ideale in cui le voci non sono influenzate da rumore, corruzione, valori mancanti ecc. La matrice osservata avrà in genere un rango molto più alto.

L'approssimazione di basso rango è quindi un modo per recuperare la matrice "originale" (la "ideale" prima che fosse incasinata dal rumore ecc.) Matrice di basso rango cioè trovare la matrice più coerente (in termini di voci osservate) con la matrice corrente ed è di livello basso in modo che possa essere utilizzato come approssimazione alla matrice ideale. Avendo recuperato questa matrice, possiamo usarla come sostituto della versione rumorosa e speriamo di ottenere risultati migliori.


4

Altre due ragioni non menzionate finora:

  1. Ridurre la colinearità. Credo che la maggior parte di queste tecniche rimuova la colinearità, che può essere utile per l'elaborazione successiva.

  2. La nostra immaginazione è di basso rango, quindi può essere utile per esplorare relazioni di basso rango.



1

Secondo le "Tecniche statistiche multivariate moderne (Izenman)" la regressione di rango ridotto copre diversi metodi interessanti come casi speciali tra cui PCA, analisi fattoriale, analisi di variabilità e correlazione canonica, analisi LDA e di corrispondenza

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.