Scopo della visualizzazione di dati ad alta dimensione?


23

Esistono molte tecniche per visualizzare set di dati ad alta dimensione, come T-SNE, isomap, PCA, PCA supervisionato, ecc. E seguiamo i movimenti della proiezione dei dati in uno spazio 2D o 3D, quindi abbiamo una "bella immagine ". Alcuni di questi metodi di incorporamento (apprendimento multiplo) sono descritti qui .

inserisci qui la descrizione dell'immagine

Ma questa "bella immagine" è davvero significativa? Quali possibili intuizioni qualcuno può afferrare cercando di visualizzare questo spazio incorporato?

Chiedo perché la proiezione fino a questo spazio incorporato di solito è insignificante. Ad esempio, se si proiettano i dati fino ai componenti principali generati da PCA, tali componenti principali (eiganvector) non corrispondono alle funzionalità nel set di dati; sono il loro spazio personale.

Allo stesso modo, t-SNE proietta i tuoi dati in uno spazio, in cui gli elementi sono vicini l'uno all'altro se minimizzano una certa divergenza di KL. Questo non è più lo spazio delle funzionalità originale. (Correggimi se sbaglio, ma non penso nemmeno che ci sia un grande sforzo da parte della comunità ML per usare t-SNE per aiutare la classificazione; questo è un problema diverso rispetto alla visualizzazione dei dati.)

Sono solo in gran parte confuso perché le persone fanno un così grande affare su alcune di queste visualizzazioni.


Non si tratta solo della "bella immagine", ma lo scopo di visualizzare dati ad alta dimensione è simile per visualizzare dati regolari a 2/3 dimensioni. es. correlazione, confini e valori anomali.
eliasah,

@eliasah: lo capisco. Ma lo spazio su cui proiettate i vostri dati non è più lo spazio originale, il che può distorcere alcune delle forme nelle dimensioni elevate. Supponi di avere un blob in 4 dimensioni. Non appena la proietti in 2D o 3D, la tua struttura è già distrutta.
hlin117,

Non se i dati si trovano in una varietà a bassa dimensione, proprio come nella tua illustrazione. Determinare questa varietà è l'obiettivo dell'apprendimento multiplo.
Emre,

Risposte:


9

Prendo come esempio il Natural Language Processing perché è il campo in cui ho più esperienza, quindi incoraggio gli altri a condividere le loro opinioni in altri campi come Computer Vision, Biostatistica, serie storiche, ecc. Sono sicuro che in quei campi ci sono esempi simili.

Concordo sul fatto che a volte le visualizzazioni dei modelli possono essere insignificanti, ma penso che lo scopo principale delle visualizzazioni di questo tipo sia di aiutarci a verificare se il modello si riferisce effettivamente all'intuizione umana o ad altri modelli (non computazionali). Inoltre, è possibile eseguire l'analisi dei dati esplorativi sui dati.

Supponiamo di avere un modello per incorporare le parole costruito dal corpus di Wikipedia usando Gensim

model = gensim.models.Word2Vec(sentences, min_count=2)

Avremmo quindi un vettore di 100 dimensioni per ogni parola rappresentata in quel corpus che è presente almeno due volte. Quindi se volessimo visualizzare queste parole dovremmo ridurle a 2 o 3 dimensioni usando l'algoritmo t-sne. Qui è dove sorgono caratteristiche molto interessanti.

Prendi l'esempio:

vettore ("re") + vettore ("uomo") - vettore ("donna") = vettore ("regina")

http://multithreaded.stitchfix.com/blog/2015/03/11/word-is-worth-a-thousand-vectors/

Qui ogni direzione codifica alcune caratteristiche semantiche. Lo stesso può essere fatto in 3d

https://www.tensorflow.org/versions/master/images/linear-relationships.png
(fonte: tensorflow.org )

Vedi come in questo esempio il passato si trova in una certa posizione rispetto al suo participio. Lo stesso per il genere. Lo stesso vale per paesi e capitali.

Nel mondo che incorpora la parola, i modelli più vecchi e più ingenui non avevano questa proprietà.

Vedi questa lezione di Stanford per maggiori dettagli. Rappresentazioni vettoriali semplici di parole: word2vec, GloVe

Si limitavano a raggruppare insieme parole simili senza riguardo per la semantica (il genere o il tempo verbale non erano codificati come direzioni). I modelli non sorprendenti che hanno una codifica semantica come direzioni in dimensioni inferiori sono più precisi. E, soprattutto, possono essere utilizzati per esplorare ogni punto dati in un modo più appropriato.

In questo caso particolare, non credo che t-SNE sia usato per aiutare la classificazione di per sé, è più simile a un controllo di integrità per il tuo modello e, talvolta, per ottenere informazioni dettagliate sul corpus che stai utilizzando. Per quanto riguarda il problema dei vettori che non si trovano più nello spazio delle caratteristiche originali. Richard Socher spiega nella lezione (link sopra) che i vettori a bassa dimensione condividono le distribuzioni statistiche con la propria rappresentazione più ampia, nonché altre proprietà statistiche che rendono plausibile l'analisi visiva in dimensioni inferiori che incorporano vettori.

Risorse aggiuntive e fonti di immagini:

  1. http://multithreaded.stitchfix.com/blog/2015/03/11/word-is-worth-a-thousand-vectors/

  2. https://www.tensorflow.org/tutorials/word2vec/index.html#motivation_why_learn_word_embeddings%3F

  3. http://deeplearning4j.org/word2vec.html

  4. https://www.tensorflow.org/tutorials/word2vec/index.html#motivation_why_learn_word_embeddings%3F


11

Prima di tutto la tua spiegazione sui metodi è corretta. Il punto è che gli algoritmi di incorporamento non devono solo visualizzare, ma sostanzialmente ridurre la dimensionalità per far fronte a due problemi principali nell'analisi dei dati statistici, vale a dire Curse of Dimentionaliy e Low-Sample Size Problem, in modo che non debbano rappresentare caratteristiche fisicamente comprese e non sono solo significativi ma anche necessari per l'analisi dei dati!

In realtà la visualizzazione è quasi l'ultimo utilizzo dei metodi di incorporamento. La proiezione di dati ad alta dimensione in uno spazio di dimensione inferiore aiuta a preservare le distanze effettive in coppia (principalmente quella euclidea) che vengono distorte nelle dimensioni elevate o catturano la maggior parte delle informazioni incorporate nella varianza delle diverse caratteristiche.


10

A Richard Hamming è attribuita la frase: "Lo scopo dell'informatica è l'intuizione, non i numeri". In questo documento accademico del 1973 (vedi la discussione in Qual è il famoso set di dati che sembra totalmente diverso ma con statistiche riassuntive simili?), Francis Anscombe sostiene che "i grafici sono essenziali per una buona analisi statistica". Il quartetto di Anscombe è da molto tempo un favorito: stesse statistiche e regressione, bassa dimensione, ma comportamenti molto diversi, per quanto riguarda rumore, valori anomali, dipendenza. La proiezione di dati in 11 dimensioni su due dimensioni mostrate di seguito è abbastanza fuorviante: uno ha correlazione e dispersione, il secondo (in basso) ha una corrispondenza esatta, tranne uno anomalo. Il terzo ha una relazione chiara, ma non lineare. Il quarto mostra che le variabili non sono potenzialmente correlate, ad eccezione di una soglia.

inserisci qui la descrizione dell'immagine

Nel libro Multivariate Analysis for the Biobehavioral and Social Sciences di Bruce L. Brown et al. , possiamo trovare:

Nel suo lavoro del 1990 "Drawing Things Together", Latour afferma che la mentalità dei duri scienziati è di intensa "ossessione" per il grafismo

Sia che siano limitati allo spazio 3D, fino a sei trame di dimensioni (spazio, colore, forma e tempo) o anche solo immaginando la decima dimensione , gli umani hanno viste limitate. Relazioni tra fenomeni osservabili: no.

Inoltre, la maledizione delle dimensioni è assortita con paradossi anche di dimensioni ridotte, per dare alcuni:

Anche se tutte le norme sono equivalenti in dimensioni finite, le relazioni tra le variabili potrebbero essere fuorvianti. Questo è uno dei motivi per preservare le distanze da uno spazio all'altro. Tali concetti sono al centro degli incorporamenti di dimensioni inferiori per i segnali (come il rilevamento della compressione e il lemma di Johnson-Lindenstauss in merito agli incorporamenti a bassa distorsione di punti dallo spazio euclideo ad alta dimensione) o alle caratteristiche ( trasformazioni di scattering per le classificazioni) .

Quindi la visualizzazione è un altro aiuto per ottenere informazioni dettagliate sui dati e va di pari passo con i calcoli, inclusa la riduzione delle dimensioni.

nn

Paradosso della pizza box

In due dimensioni, la sfera blu centrale è piccola. Anche in 3D. Ma molto rapidamente, la palla centrale cresce e il suo raggio supera quello del cubo. Questa intuizione è vitale per il clustering, ad esempio.


4

Sulla base delle dichiarazioni e delle discussioni, penso che ci sia un punto importante da distinguere. Una trasformazione in uno spazio dimensionale inferiore può ridurre l'informazione, che è qualcosa di diverso dal rendere l'informazione insignificante . Vorrei usare una seguente analogia:

Osservare le immagini (2D) del nostro mondo (3D) è una pratica abituale. Un metodo di visualizzazione fornisce solo diversi "occhiali" per vedere uno spazio ad alta dimensione.

Una buona cosa per "fidarsi" di un metodo di visualizzazione è capire gli interni. Il mio esempio preferito è l' MDS . È facile implementare questo metodo da solo utilizzando alcuni strumenti di ottimizzazione (ad es. R optimise ). Quindi puoi vedere come le parole del metodo, puoi misurare l'errore del risultato ecc.

Alla fine si ottiene un'immagine che conserva la somiglianza dei dati originali con un certo grado di precisione. Non di più, ma non di meno.


4

A volte, è significativo visualizzare dati ad alta dimensione dal momento che può dirci la fisica.

Esiste almeno un esempio in astrofisica in cui si proiettano i dati fino ai componenti principali generati da PCA e quei componenti principali corrispondono a molte intuizioni fisiche sulle galassie. Per i dettagli, vedere l'ultima figura in http://www.astroml.org/sklearn_tutorial/dimensionality_reduction.html#id2

e la carta dentro

http://iopscience.iop.org/article/10.1086/425626/pdf

Ecco l'idea di base. Gli autori applicano la PCA a molti spettri (ad es. 10.000) da un telescopio. Ogni spettro ha ~ 1000 attributi. Poiché questo set di dati ha dimensioni elevate, è difficile visualizzarlo. Tuttavia, i primi 4 componenti di PCA rivelano molta fisica sugli spettri (vedere le sezioni 4.1-4.4 nel documento sopra).


4

Adottando un approccio leggermente diverso rispetto alle altre grandi risposte qui, la "bella immagine" vale più di mille parole. Alla fine, dovrai comunicare le tue scoperte a qualcuno che non è statisticamente alfabetizzato o che semplicemente non ha il tempo, l'interesse o qualsiasi altra cosa per cogliere l'intera situazione. Ciò non significa che non possiamo aiutare la persona a capire, almeno un concetto generale o un pezzo di realtà. Questo è ciò che fanno libri come Freakonomics: c'è poco o niente matematica, nessun set di dati, eppure i risultati sono ancora presentati.

Dalle arti, guarda il maresciallo Ney al ritiro in Russia . Questa enorme semplificazione eccessiva delle guerre napoleoniche trasmette tuttavia un grande significato e consente alle persone con anche la più ignorante conoscenza della guerra di comprendere la brutalità, il clima, il paesaggio, la morte e il decoro che permeavano l'invasione della Russia.

In definitiva, le carte sono semplicemente comunicazione e, nel bene o nel male, la comunicazione umana è spesso focalizzata sulla conflazione, sulla semplificazione e sulla brevità.


3

Ottima domanda Nel capitolo 4 di "Illuminating the Path, The Research and Development Agenda for Visual Analytics" di James J. Thomas e Kristin A. Cook è una discussione sulle rappresentazioni e trasformazioni di dati. Nella mia ricerca ho affrontato questa domanda nel contesto della PCA e dell'analisi fattoriale. La mia breve risposta è che le visualizzazioni sono utili se si ha la trasformazione dei dati per passare dallo spazio di visualizzazione allo spazio di dati originale. Ciò sarebbe inoltre condotto nell'ambito di un quadro di analisi visiva.


Avere una mappatura dallo spazio proiettato allo spazio originale ha senso. Tuttavia, ci sono altri casi d'uso?
hlin117,

Ho anche esaminato il capitolo 4 di "Illuminating the Path, The Research and Development Agenda for Visual Analytics". Non menziona nulla sulle visualizzazioni ad alta dimensione su un sottospazio visibile.
hlin117,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.