La riduzione della dimensionalità si riferisce alle tecniche per ridurre molte variabili in un numero minore mantenendo il maggior numero di informazioni possibile. Un metodo importante è [tag pca]
Da Wikipedia, la riduzione della dimensionalità o la riduzione della dimensione è il processo di riduzione del numero di variabili casuali in esame e può essere suddiviso in selezione e estrazione delle caratteristiche. Qual è la differenza tra la selezione e l'estrazione della funzione? Qual è un esempio di riduzione …
Ho un ampio set di dati (circa 8 GB). Vorrei usare l'apprendimento automatico per analizzarlo. Quindi, penso che dovrei usare SVD quindi PCA per ridurre la dimensionalità dei dati per efficienza. Tuttavia, MATLAB e Octave non possono caricare un set di dati così grande. Quali strumenti posso usare per fare …
Ho un database dalla mia applicazione Facebook e sto cercando di utilizzare l'apprendimento automatico per stimare l'età degli utenti in base ai siti Facebook che preferiscono. Ci sono tre caratteristiche cruciali del mio database: la distribuzione dell'età nel mio set di formazione (in totale 12k di utenti) è distorta rispetto …
Esistono molte tecniche per visualizzare set di dati ad alta dimensione, come T-SNE, isomap, PCA, PCA supervisionato, ecc. E seguiamo i movimenti della proiezione dei dati in uno spazio 2D o 3D, quindi abbiamo una "bella immagine ". Alcuni di questi metodi di incorporamento (apprendimento multiplo) sono descritti qui . …
Ci sono significati per le dimensioni di un inclusione t-sne? Come con PCA, abbiamo questo senso di massimizzazioni della varianza linearmente trasformate, ma per t-sne esiste un'intuizione oltre allo spazio che definiamo per la mappatura e la minimizzazione della distanza KL?
Vorrei ridurre la dimensionalità su quasi 1 milione di vettori ciascuno con 200 dimensioni ( doc2vec). Sto usando l' TSNEimplementazione dal sklearn.manifoldmodulo per questo e il problema principale è la complessità temporale. Anche con method = barnes_hut, la velocità di calcolo è ancora bassa. Qualche volta anche la memoria si …
Ho una grande matrice sparsa di utenti e oggetti che gli piacciono (nell'ordine di 1 milione di utenti e 100.000 articoli, con un livello molto basso di scarsità). Sto esplorando i modi in cui potrei eseguire la ricerca kNN su di esso. Date le dimensioni del mio set di dati …
L'estrazione e la selezione delle caratteristiche riducono sostanzialmente la dimensionalità dei dati, ma l'estrazione delle caratteristiche rende anche i dati più separabili, se ho ragione. Quale tecnica sarebbe preferita rispetto alle altre e quando? Stavo pensando, poiché la selezione delle funzionalità non modifica i dati originali e le sue proprietà, …
Comprendo dall'articolo di Hinton che T-SNE fa un buon lavoro nel mantenere le somiglianze locali e un lavoro decente nel preservare la struttura globale (clusterizzazione). Tuttavia non sono chiaro se i punti che appaiono più vicini in una visualizzazione 2D t-sne possano essere assunti come punti di dati "più simili". …
A causa di varie maledizioni di dimensionalità , l'accuratezza e la velocità di molte delle comuni tecniche predittive si riducono su dati ad alta dimensione. Quali sono alcune delle tecniche / trucchi / euristiche più utili che aiutano a gestire efficacemente i dati ad alta dimensione? Per esempio, Alcuni metodi …
Non sono un esperto di autoencoder o reti neurali in alcun modo, quindi perdonami se questa è una domanda sciocca. Ai fini della riduzione dimensionale o della visualizzazione di cluster in dati ad alta dimensione, è possibile utilizzare un codificatore automatico per creare una rappresentazione bidimensionale (con perdita) ispezionando l'output …
Salve, ho un frame di dati con valori categorici elevati su oltre 1600 categorie, esiste un modo per trovare alternative in modo da non avere più di 1600 colonne. Ho trovato questo link interessante sotto http://amunategui.github.io/feature-hashing/#sourcecode Ma si stanno convertendo in classe / oggetto che non voglio. Voglio il mio …
Una frase comunemente ascoltata nell'apprendimento automatico senza supervisione è Gli input ad alta dimensione in genere vivono su o vicino a una varietà a bassa dimensione Che cos'è una dimensione? Che cos'è una varietà? Qual è la differenza? Puoi fare un esempio per descrivere entrambi? Collettore da Wikipedia: In matematica, …
Ho un set di dati con ~ 1M righe e ~ 500K caratteristiche sparse. Voglio ridurre la dimensionalità da qualche parte nell'ordine delle caratteristiche dense 1K-5K. sklearn.decomposition.PCAnon funziona su dati sparsi e ho provato a usare sklearn.decomposition.TruncatedSVDma ho un errore di memoria abbastanza rapidamente. Quali sono le mie opzioni per …
Sto prototipando un'applicazione e ho bisogno di un modello linguistico per calcolare la perplessità su alcune frasi generate. Esiste un modello di linguaggio addestrato in Python che posso usare facilmente? Qualcosa di semplice come model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.