Scienza dei dati

Domande e risposte per i professionisti della scienza dei dati, gli specialisti di Machine Learning e coloro che sono interessati a saperne di più sul campo

Qual è la differenza tra RNN di generazione di testo basato su parole e basato su caratteri?

Durante la lettura della generazione di testo con le reti neurali ricorrenti ho notato che alcuni esempi sono stati implementati per generare testo parola per parola e altri carattere per carattere senza dichiarare effettivamente il perché. Quindi, qual è la differenza tra i modelli RNN che prevedono la base del …

15 machine-learning neural-network nlp rnn

Intuition Behind Restricted Boltzmann Machine (RBM)

Ho seguito il corso sulle reti neurali di Geoff Hinton su Coursera e anche attraverso l' introduzione alle macchine boltzmann riservate , ma non capivo l'intuizione dietro gli RBM. Perché dobbiamo calcolare l'energia in questa macchina? E a che serve la probabilità in questa macchina? Ho visto anche questo video …

15 unsupervised-learning rbm

R: apprendimento automatico su GPU

Esistono pacchetti di apprendimento automatico per R che possono utilizzare la GPU per migliorare la velocità di allenamento (qualcosa come theano dal mondo Python)? Vedo che esiste un pacchetto chiamato gputools che consente l'esecuzione di codice sulla gpu, ma sto cercando una libreria più completa per l'apprendimento automatico.

15 machine-learning r gpu

Libreria Python per implementare Hidden Markov Models

Quale libreria Python stabile posso usare per implementare i modelli nascosti di Markov? Ho bisogno che sia ragionevolmente ben documentato, perché non ho mai usato questo modello prima d'ora. In alternativa, esiste un approccio più diretto per eseguire un'analisi delle serie temporali su un set di dati utilizzando HMM?

15 python time-series markov-process

Strumenti di data science con Scala

So che Spark è completamente integrato con Scala. Il suo caso d'uso è specifico per grandi set di dati. Quali altri strumenti hanno un buon supporto Scala? Scala è più adatta per set di dati più grandi? O è adatto anche per set di dati più piccoli?

15 scalability scala

Come specificare gli attributi importanti?

Supponiamo un insieme di dati vagamente strutturati (ad es. Tabelle Web / dati aperti collegati), composto da molte origini dati. Non esiste uno schema comune seguito dai dati e ogni fonte può usare attributi sinonimo per descrivere i valori (ad es. "Nazionalità" vs "bornIn"). Il mio obiettivo è trovare alcuni …

15 machine-learning statistics feature-selection

Qual è la differenza tra Hadoop e noSQL

Ho sentito parlare di molti strumenti / framework per aiutare le persone a elaborare i propri dati (ambiente big data). Uno si chiama Hadoop e l'altro è il concetto noSQL. Qual è la differenza nel punto di elaborazione? Sono complementari?

15 nosql tools processing apache-hadoop

La finestra scorrevole porta a un overfitting in LSTM?

Esaurirò il mio LSTM se lo alleno attraverso l'approccio a finestra scorrevole? Perché le persone non sembrano usarlo per gli LSTM? Per un esempio semplificato, supponiamo che dobbiamo prevedere la sequenza di caratteri: A B C D E F G H I J K L M N O P Q …

15 lstm backpropagation mini-batch-gradient-descent

Perché convertiamo i dati distorti in una distribuzione normale

Stavo attraversando una soluzione della concorrenza sui prezzi delle case su Kaggle ( Human Analog's Kernel on House Prices: Advance Regression Techniques ) e mi sono imbattuto in questa parte: # Transform the skewed numeric features by taking log(feature + 1). # This will make the features more normal. from …

15 regression feature-extraction feature-engineering kaggle feature-scaling

Somiglianza tra due parole

Sto cercando una libreria Python che mi aiuti a identificare la somiglianza tra due parole o frasi. Farò la conversione da audio a testo che si tradurrà in un dizionario inglese o parole non di dizionario (potrebbe essere il nome di una persona o di un'azienda). Successivamente, devo confrontarlo con …

15 nlp nltk

Perché le funzioni di attivazione devono essere monotoniche?

Attualmente mi sto preparando per un esame sulle reti neurali. In diversi protocolli degli esami precedenti ho letto che le funzioni di attivazione dei neuroni (nei percetroni multistrato) devono essere monotoniche. Comprendo che le funzioni di attivazione dovrebbero essere differenziabili, avere una derivata che non è 0 sulla maggior parte …

15 machine-learning neural-network

rimuovendo le stringhe dopo un certo carattere in un dato testo

Ho un set di dati come quello qui sotto. Voglio rimuovere tutti i caratteri dopo il carattere ©. Come posso farlo in R? data_clean_phrase <- c("Copyright © The Society of Geomagnetism and Earth", "© 2013 Chinese National Committee ") data_clean_df <- as.data.frame(data_clean_phrase)

15 r data-cleaning

Progetti di scienza dei dati open source per contribuire

Il contributo a progetti open source è in genere un buon modo per ottenere un po 'di pratica per i neofiti e provare una nuova area per esperti data scientist e analisti. A quali progetti contribuisci? Fornisci alcuni link introduttivi + su Github.

15 beginner open-source

Differenza di raccomandazione basata sull'oggetto e basata sull'utente in Mahout

Vorrei sapere in che modo esattamente i consigli basati sull'utente e quelli basati sugli articoli differiscono l'uno dall'altro. Lo definisce Basato sull'utente : consiglia gli articoli trovando utenti simili. Questo è spesso più difficile da ridimensionare a causa della natura dinamica degli utenti. Basato su articoli : calcola la somiglianza …

15 machine-learning data-mining algorithms recommender-system

K-significa vs K-mezzo online

K-means è un algoritmo ben noto per il clustering, ma esiste anche una variante online di tale algoritmo (K-medie online). Quali sono i pro e i contro di questi approcci e quando dovrebbero essere preferiti?

15 clustering algorithms k-means

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.

Licensed under cc by-sa 3.0 with attribution required.