Scienza dei dati data-mining

13

K-Clustering per dati numerici e categorici misti

Il mio set di dati contiene un numero di attributi numerici e uno categoriale. Di ' NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, dove CategoricalAttrassume uno dei tre valori possibili: CategoricalAttrValue1, CategoricalAttrValue2o CategoricalAttrValue3. Sto usando l'implementazione predefinita dell'algoritmo di clustering k-means per Octave https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/ . Funziona solo con dati numerici. Quindi la …

133 data-mining clustering octave k-means categorical-data

8

Rilevazione di anomalie open source in Python

Contesto del problema: sto lavorando a un progetto che prevede file di registro simili a quelli presenti nello spazio di monitoraggio IT (per la mia migliore comprensione dello spazio IT). Questi file di registro sono dati di serie temporali, organizzati in centinaia / migliaia di righe di vari parametri. Ogni …

61 machine-learning python data-mining anomaly-detection library

2

Support Vector Machines è ancora considerato "all'avanguardia" nella sua nicchia?

Questa domanda è in risposta a un commento che ho visto su un'altra domanda. Il commento riguardava il programma del corso di Machine Learning su Coursera e sulla falsariga di "SVM non sono usati così tanto al giorno d'oggi". Ho appena terminato da solo le lezioni pertinenti e la mia …

58 data-mining svm state-of-the-art

5

Quali sono alcuni modi standard per calcolare la distanza tra i documenti?

Quando dico "documento", ho in mente pagine web come articoli di Wikipedia e notizie. Preferisco le risposte fornendo metriche della distanza lessicale vaniglia o metriche della distanza semantica all'avanguardia, con una preferenza più forte per quest'ultima.

34 machine-learning data-mining nlp text-mining similarity

1

Perché xgboost è molto più veloce di sklearn GradientBoostingClassifier?

Sto cercando di formare un modello di aumento gradiente su 50.000 esempi con 100 funzioni numeriche. XGBClassifiergestisce 500 alberi entro 43 secondi sulla mia macchina, mentre GradientBoostingClassifiergestisce solo 10 alberi (!) in 1 minuto e 2 secondi :( Non mi sono preoccupato di provare a far crescere 500 alberi perché …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

6

Come fare SVD e PCA con i big data?

Ho un ampio set di dati (circa 8 GB). Vorrei usare l'apprendimento automatico per analizzarlo. Quindi, penso che dovrei usare SVD quindi PCA per ridurre la dimensionalità dei dati per efficienza. Tuttavia, MATLAB e Octave non possono caricare un set di dati così grande. Quali strumenti posso usare per fare …

29 bigdata data-mining dimensionality-reduction

3

Coefficiente di Gini vs impurità di Gini - alberi decisionali

Il problema si riferisce alla costruzione di alberi decisionali. Secondo Wikipedia il " coefficiente di Gini " non deve essere confuso con "l' impurità di Gini ". Tuttavia, entrambe le misure possono essere utilizzate quando si costruisce un albero decisionale: possono supportare le nostre scelte quando si divide il set …

25 data-mining

3

Perché abbiamo bisogno di XGBoost e Random Forest?

Non ero chiaro su un paio di concetti: XGBoost converte gli studenti deboli in studenti forti. Qual è il vantaggio di farlo? Combinando molti studenti deboli invece di usare un solo albero? La foresta casuale usa vari campioni dall'albero per creare un albero. Qual è il vantaggio di questo metodo …

25 machine-learning data-mining random-forest decision-trees xgboost

3

Perché le comunità NLP e Machine Learning sono interessate all'apprendimento profondo?

Spero che tu mi possa aiutare, poiché ho alcune domande su questo argomento. Sono nuovo nel campo dell'apprendimento profondo e, mentre ho fatto alcuni tutorial, non riesco a mettere in relazione o distinguere i concetti gli uni dagli altri.

24 machine-learning data-mining neural-network nlp deep-learning

4

Significato delle caratteristiche latenti?

Sto imparando la fattorizzazione a matrice per i sistemi di raccomandazione e sto vedendo il termine latent featuresricorrere troppo frequentemente ma non riesco a capire cosa significhi. So cos'è una funzionalità ma non capisco l'idea di funzionalità latenti. Potresti spiegarlo, per favore? O almeno indicami un documento / un luogo …

24 machine-learning data-mining recommender-system

4

La scienza dei dati è la stessa del data mining?

Sono sicuro che la scienza dei dati, come sarà discusso in questo forum, ha diversi sinonimi o almeno campi correlati in cui vengono analizzati dati di grandi dimensioni. La mia domanda particolare riguarda il Data Mining. Ho preso un corso di laurea in Data Mining qualche anno fa. Quali sono …

22 data-mining definitions

2

Come gestire le serie temporali che cambiano nella stagionalità o in altri schemi?

sfondo Sto lavorando su una serie di dati di serie temporali di letture dei contatori di energia. La lunghezza della serie varia in base al metro - per alcuni ho diversi anni, altri solo pochi mesi, ecc. Molti mostrano una stagionalità significativa, e spesso più strati - entro il giorno, …

22 data-mining clustering time-series beginner

1

Cos'è Hellinger Distance e quando usarlo?

Sono interessato a sapere cosa succede realmente in Hellinger Distance (in termini semplici). Inoltre, sono anche interessato a sapere quali sono i tipi di problemi che possiamo usare Hellinger Distance? Quali sono i vantaggi dell'utilizzo di Hellinger Distance?

19 machine-learning data-mining text-mining distance

4

Quale modello statistico dovrei usare per analizzare la probabilità che un singolo evento abbia influenzato i dati longitudinali

Sto cercando di trovare una formula, un metodo o un modello da utilizzare per analizzare la probabilità che un evento specifico abbia influenzato alcuni dati longitudinali. Sto avendo difficoltà a capire cosa cercare su Google. Ecco uno scenario di esempio: Immagina di possedere un'azienda che ha una media di 100 …

19 machine-learning data-mining statistics

1

Word2Vec vs. Frase2Vec vs. Doc2Vec

Recentemente ho trovato i termini Word2Vec , Sentence2Vec e Doc2Vec e un po 'confuso come io sono nuovo alla semantica vettoriali. Qualcuno può elaborare le differenze in questi metodi in parole semplici. Quali sono i compiti più adatti per ciascun metodo?

18 machine-learning data-mining clustering nlp unsupervised-learning

Domande taggate «data-mining»