Riduzione dimensionale scalabile


9

Considerando il numero di funzionalità costante, Barnes-Hut t-SNE ha una complessità di , proiezioni casuali e PCA hanno una complessità di che le rende "convenienti" per insiemi di dati molto grandi.O ( n )O(nlogn)O(n)

D'altra parte, i metodi basati sul ridimensionamento multidimensionale hanno una complessità .O(n2)

Esistono altre tecniche di riduzione delle dimensioni (oltre a quelle banali, come guardare le prime colonne, ovviamente) la cui complessità è inferiore a ?O ( n registro n )kO(nlogn)

Risposte:


5

Un'opzione interessante sarebbe esplorare la riduzione della dimensionalità basata su neuroni. Il tipo più comunemente usato di rete per la riduzione dimensionalità, l'autoencoder, possono essere addestrati a costo di , dove rappresenta le iterazioni di formazione (è un iper-parametro indipendente dei dati di allenamento) . Pertanto, la complessità dell'allenamento si semplifica in .i O ( n )O(in)iO(n)

Puoi iniziare dando un'occhiata al seminario del 2006 di Hinton e Salakhutdinov [1]. Da allora, le cose si sono evolute molto. Ora la maggior parte dell'attenzione è raggiunta dagli Autoencoder Variazionali [2], ma l'idea di base (una rete che ricostruisce l'input nel suo livello di output con uno strato di collo di bottiglia in mezzo) rimane la stessa. Si noti che, al contrario di PCA e RP, gli auto-codificatori eseguono una riduzione della dimensionalità non lineare. Inoltre, al contrario di t-SNE, gli autoencoders possono trasformare campioni invisibili senza la necessità di riqualificare l'intero modello.

Sul lato pratico, raccomando di dare un'occhiata a questo post , che fornisce dettagli su come implementare diversi tipi di autoencoder con la meravigliosa libreria Keras.

[1] Hinton, GE e Salakhutdinov, RR (2006). Ridurre la dimensionalità dei dati con le reti neurali. scienza, 313 (5786), 504-507.

[2] Kingma, DP e Welling, M. (2013). Bayes variazionali a codifica automatica. arXiv prestampa arXiv: 1312.6114.


1
tecnicamente non è necessario riqualificare il modello per nuovi campioni con t-SNE usando questo approccio particolare: lvdmaaten.github.io/publications/papers/AISTATS_2009.pdf
bibliolytic

Sicuro. L'autore ha anche suggerito di formare un regressore multivariato per prevedere i campioni di dati di input del modulo di posizione della mappa come un potenziale approccio. Nel documento citi l'autore forma una rete neurale per minimizzare direttamente la perdita di t-SNE. Tuttavia, in entrambi i casi è necessario definire un modello o una funzione espliciti per mappare i punti dati sullo spazio risultante, quindi deve essere abbastanza potente (abbastanza strati / neuroni) per imparare l'incorporamento, ma non troppo per evitare un eccesso di adattamento ... Sacrifica in parte l'usabilità del t-SNE standard.
Daniel López,

Non c'è disaccordo lì, penso solo che sia un po 'impreciso contrastare gli autoencoder e il t-SNE come fai nella tua risposta, visto che il t-SNE può essere usato come una perdita per la riduzione della dimensionalità
bibliolitico,

Sebbene ora che rileggo, una domanda: possiamo effettivamente dire che le reti neurali sono , visto che non sono garantite per convergere effettivamente? La notazione Big-O è limitata nel caso peggiore, giusto? O(n)
bibliolitico il

Non volevo includerlo nella risposta da quando ho calcolato la perdita di t-SNE durante l'allenamento di una rete impiega il tempo dove è la dimensione del mini-batch. mO(m2)m
Daniel López,

0

Oltre ai già citati autoencoder, si può provare a sfruttare il lemma di Johnson-Lindenstrauss con proiezioni casuali o metodi di sottospazio casuali. Le proiezioni casuali sono , con il numero di campioni di dimensione e la dimensione target, cfr [1].N d kO(kdN)Ndk

Un po 'di google ti darà alcuni risultati molto recenti, in particolare per set di dati sparsi.

[1] Proiezione casuale nella riduzione della dimensionalità: applicazioni a dati di immagine e testo .

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.