Scienza dei dati data-mining

4

K-significa: quali sono alcuni buoni modi per scegliere un insieme efficiente di centroidi iniziali?

Quando viene utilizzata un'inizializzazione casuale di centroidi, diverse esecuzioni di K significano diversi SSE totali. Ed è cruciale nelle prestazioni dell'algoritmo. Quali sono alcuni approcci efficaci per risolvere questo problema? Sono apprezzati gli approcci recenti.

17 data-mining clustering k-means

3

Classificazione discriminatoria di una classe con background negativo squilibrato, eterogeneo?

Sto lavorando per migliorare un classificatore supervisionato esistente, per classificare le sequenze di {proteine} come appartenenti a una classe specifica (precursori dell'ormone neuropeptide) o no. Esistono circa 1.150 "positivi" noti, su uno sfondo di circa 13 milioni di sequenze di proteine ("Sfondo sconosciuto / scarsamente annotato"), o circa 100.000 proteine …

16 machine-learning data-mining python classification

5

ingrandisci la mappa di calore dei nati marini

Creo un corr()df da un df originale. Il corr()df è venuto fuori 70 X 70 ed è impossibile visualizzare il heatmap ... sns.heatmap(df). Se provo a visualizzare il corr = df.corr(), la tabella non si adatta allo schermo e posso vedere tutte le correlazioni. È un modo per stampare l'intero …

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

2

Differenza di raccomandazione basata sull'oggetto e basata sull'utente in Mahout

Vorrei sapere in che modo esattamente i consigli basati sull'utente e quelli basati sugli articoli differiscono l'uno dall'altro. Lo definisce Basato sull'utente : consiglia gli articoli trovando utenti simili. Questo è spesso più difficile da ridimensionare a causa della natura dinamica degli utenti. Basato su articoli : calcola la somiglianza …

15 machine-learning data-mining algorithms recommender-system

4

Albero decisionale vs. KNN

In quali casi è meglio usare un albero decisionale e altri casi un KNN? Perché usarne uno in alcuni casi? E l'altro in diversi casi? (Osservando la sua funzionalità, non l'algoritmo) Qualcuno ha qualche spiegazione o riferimenti a riguardo?

15 machine-learning data-mining decision-trees

3

Perché gli ensemble sono così irragionevolmente efficaci

Sembra che sia diventato assiomatico che un insieme di discenti porti ai migliori risultati di modello possibili - e sta diventando molto più raro, ad esempio, per i singoli modelli vincere competizioni come Kaggle. C'è una spiegazione teorica del perché gli ensemble siano così dannatamente efficaci?

14 machine-learning data-mining predictive-modeling

2

Utilizzo degli attributi per classificare / raggruppare i profili utente

Ho un set di dati di utenti che acquistano prodotti da un sito Web. Gli attributi che ho sono ID utente, regione (stato) dell'utente, ID categorie di prodotto, ID parole chiave del prodotto, ID parole chiave del sito Web e importo delle vendite speso del prodotto. L'obiettivo è quello di …

14 machine-learning data-mining classification clustering

1

Riconosci una grammatica in una sequenza di token fuzzy

Ho documenti di testo che contengono principalmente elenchi di articoli. Ogni elemento è un gruppo di più token di diversi tipi: Nome, Cognome, Data di nascita, Numero di telefono, Città, Occupazione, ecc. Un token è un gruppo di parole. Gli articoli possono trovarsi su più righe. Gli elementi di un …

13 data-mining clustering text-mining time-series correlation

1

Neo4j vs OrientDB vs Titan

Sto lavorando a un progetto di scienza dei dati relativo al mining delle relazioni sociali e ho bisogno di archiviare i dati in alcuni database di grafi. Inizialmente ho scelto Neo4j come database. Ma sembra che Neo4j non si ridimensioni bene. L'alternativa che ho scoperto sono Titan e oriebtDB. Ho …

13 data-mining graphs databases social-network-analysis

4

Case study sui big data o esempio di utilizzo

Ho letto molti blog \ articoli su come i diversi tipi di settori utilizzano Big Data Analytic. Ma la maggior parte di questi articoli non menziona Che tipo di dati hanno usato queste aziende. Qual era la dimensione dei dati Che tipo di strumenti utilizzavano le tecnologie per elaborare i …

13 data-mining bigdata usecase

1

Qual è la differenza tra una codifica a caldo e tralasciare una codifica?

Sto leggendo una presentazione e mi consiglia di non utilizzare lasciare una codifica, ma va bene con una codifica a caldo. Pensavo fossero entrambi uguali. Qualcuno può descrivere quali sono le differenze tra loro?

13 machine-learning data-mining feature-selection feature-extraction feature-engineering

2

Esistono API per la scansione dell'estratto di carta?

Se ho un elenco molto lungo di nomi di documenti, come posso ottenere abstract di questi documenti da Internet o da qualsiasi database? I nomi dei documenti sono come "Valutazione dell'utilità nel Web Mining per il dominio della sanità pubblica". Qualcuno conosce qualche API che può darmi una soluzione? Ho …

13 data-mining machine-learning

2

Tariffe aeree - Quale analisi dovrebbe essere utilizzata per rilevare il comportamento competitivo e la correlazione dei prezzi?

Voglio indagare sul comportamento di determinazione dei prezzi delle compagnie aeree, in particolare su come le compagnie aeree reagiscono ai prezzi dei concorrenti. Come direi che la mia conoscenza di analisi più complesse è piuttosto limitata, ho fatto principalmente tutti i metodi di base per raccogliere una visione generale dei …

12 data-mining dataset regression correlation visualization

2

FPGrowth è ancora considerato "stato dell'arte" nelle miniere di pattern frequenti?

Per quanto ne so lo sviluppo di algoritmi per risolvere il problema Frequent Pattern Mining (FPM), la strada dei miglioramenti ha alcuni punti di controllo principali. In primo luogo, l' algoritmo Apriori è stato proposto nel 1993, da Agrawal et al. , insieme alla formalizzazione del problema. L'algoritmo è stato …

12 bigdata data-mining efficiency state-of-the-art

3

Esistono buoni modelli linguistici predefiniti per Python?

Sto prototipando un'applicazione e ho bisogno di un modello linguistico per calcolare la perplessità su alcune frasi generate. Esiste un modello di linguaggio addestrato in Python che posso usare facilmente? Qualcosa di semplice come model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

Domande taggate «data-mining»