Perché RP non è una proiezione in base a questa definizione?
Michael Mahoney scrive nelle tue lezioni che dipende da come è costruito il RP , indipendentemente dal fatto che il RP sia o meno una proiezione nel tradizionale senso algebrico lineare. Lo fa nel terzo e quarto punto:
Terzo, se i vettori casuali fossero esattamente ortogonali (come in realtà erano nelle costruzioni JL originali), allora avremmo che la proiezione JL fosse una proiezione ortogonale
...
ma anche se questo è falso per gaussiane, variabili casuali, e la maggior parte altre costruzioni, si può dimostrare che i vettori risultanti sono circa unità di lunghezza e circa ortogonale{±}
...
questo è "abbastanza buono".
Quindi, in linea di principio, potresti fare la proiezione casuale con una costruzione diversa che è limitata alle matrici ortogonali (anche se non è necessaria). Vedi ad esempio l'opera originale:
Johnson, William B. e Joram Lindenstrauss. "Estensioni delle mappature di Lipschitz in uno spazio di Hilbert." Matematica contemporanea 26.189-206 (1984): 1.
... se si sceglie a caso una proiezione ortogonale di rango sukln2
...
Per precisare questo, lasciamo che sia la proiezione sulle prime coordinate di e che sia normalizzato misura di Haar su , il gruppo ortogonale su . Quindi la variabile casuale definita da determina la nozione di " proiezione di grado casuale ".Qkln2σO(n)ln2f:(O(n),σ)→L(ln2)
f(u)=U⋆QU
k
La voce di Wikipedia descrive la proiezione casuale in questo modo (lo stesso è menzionato nelle note delle lezioni alle pagine 10 e 11)
https://en.wikipedia.org/wiki/Random_projection#Gaussian_random_projection
La prima riga è un vettore di unità casuale scelto uniformemente da . La seconda riga è un vettore di unità casuale dallo spazio ortogonale alla prima riga, la terza riga è un vettore di unità casuale dallo spazio ortogonale alle prime due righe e così via.Sd−1
Ma generalmente non si ottiene questa ortogonalità quando si prendono tutte le voci della matrice nelle variabili casuali e indipendenti della matrice con una distribuzione normale (come Whuber ha menzionato nel suo commento con una conseguenza molto semplice "se le colonne fossero sempre ortogonali, le loro voci potrebbero non essere indipendente ").
La matrice e il prodotto nel caso di colonne ortonormali possono essere viste come una proiezione perché si riferiscono a una matrice di proiezione . Questo è un po 'lo stesso di vedere la normale regressione dei minimi quadrati come una proiezione. Il prodotto non è la proiezione ma ti dà una coordinata in un vettore base diverso. La proiezione 'reale' è e la matrice di proiezione è .RP=RTRb=RTxx′=Rb=RTRxRTR
La matrice di proiezione deve essere l' operatore di identità nel sottospazio che è l'intervallo della proiezione (vedere le proprietà menzionate nella pagina di Wikipedia). O, diversamente, ha bisogno di avere autovalori 1 e 0, in modo tale che il sottospazio per il quale è la matrice di identità sia l'intervallo degli autovettori associati agli autovalori 1. Con le voci di matrice casuali non otterrai questa proprietà. Questo è il secondo punto delle note della lezioneP=RTRU
... sembra "una matrice ortogonale in molti modi ... l' è un sottospazio distribuito uniformemente ... ma gli autovalori non sono in .range(PTP){0,1}
si noti che in questa citazione la matrice riferisce alla matrice nella domanda e non alla matrice di proiezione che è implicita dalla matricePRP=RTRR
Quindi la proiezione casuale di diverse costruzioni, come l'uso di voci casuali nella matrice, non è esattamente uguale a una proiezione ortogonale. Ma è più semplice dal punto di vista computazionale e, secondo Michael Mahoney, è "abbastanza buono".