Scienza dei dati data-mining

2

Quanti dati sono sufficienti per addestrare il mio modello di apprendimento automatico?

Ho lavorato sull'apprendimento automatico e la bioinformatica per un po ', e oggi ho avuto una conversazione con un collega sui principali problemi generali del data mining. Il mio collega (che è un esperto di apprendimento automatico) ha affermato che, a suo avviso, l'aspetto pratico probabilmente più importante dell'apprendimento automatico …

11 machine-learning data-mining dataset data-cleaning data

4

Come evitare l'adattamento eccessivo nella foresta casuale?

Voglio evitare il sovradimensionamento nella foresta casuale. A questo proposito, intendo utilizzare mtry, nodesize, maxnodi ecc. Potreste aiutarmi, per favore, a scegliere i valori per questi parametri? Sto usando R. Inoltre, se possibile, per favore dimmi come posso usare la validazione incrociata di k-fold per la foresta casuale (in R).

11 machine-learning data-mining r predictive-modeling random-forest

7

Scraping web di LinkedIn

Di recente ho scoperto un nuovo pacchetto R per la connessione all'API di LinkedIn. Sfortunatamente l'API di LinkedIn sembra piuttosto limitata all'inizio; ad esempio, è possibile ottenere solo dati di base sulle aziende e questi sono distaccati dai dati sugli individui. Vorrei ottenere dati su tutti i dipendenti di una …

11 data-mining social-network-analysis crawling scraping

3

Relazione tra KS, AUROC e Gini

Le statistiche comuni di validazione del modello come il test di Kolmogorov – Smirnov (KS), AUROC e coefficiente di Gini sono tutte funzionalmente correlate. Tuttavia, la mia domanda ha a che fare con la dimostrazione di come siano tutti correlati. Sono curioso di sapere se qualcuno mi può aiutare a …

11 data-mining statistics predictive-modeling accuracy

4

Lavorare con i cluster HPC

Nella mia università, abbiamo un cluster di elaborazione HPC. Uso il cluster per addestrare classificatori e così via. Quindi, di solito, per inviare un lavoro al cluster, (ad esempio script python scikit-learn), devo scrivere uno script Bash che contenga (tra gli altri) un comando simile qsub script.py. Tuttavia, trovo questo …

11 bigdata data-mining

2

Come posso adattare i tipi di dati categorici per la classificazione casuale delle foreste?

Devo trovare l'accuratezza di un set di dati di allenamento applicando l'algoritmo casuale della foresta. Ma i miei tipi di set di dati sono sia categorici che numerici. Quando ho provato ad adattare quei dati, ho ricevuto un errore. 'Input contiene NaN, infinito o un valore troppo grande per dtype …

11 python data-mining random-forest

3

Le migliori lingue per il calcolo scientifico [chiuso]

Chiuso . Questa domanda deve essere più focalizzata . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che si concentri su un problema solo modificando questo post . Chiuso 5 anni fa . Sembra che la maggior parte delle lingue abbia un certo numero …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

4

Visualizzazione degli articoli acquistati spesso insieme

Ho un set di dati nella seguente struttura inserito in un file CSV: Banana Water Rice Rice Water Bread Banana Juice Ogni riga indica una raccolta di articoli acquistati insieme. Ad esempio, la prima riga indica che gli elementi Banana, Watere Ricesono stati acquistati insieme. Voglio creare una visualizzazione come …

10 python r data-mining visualization association-rules

3

Che è più veloce: PostgreSQL vs MongoDB su grandi set di dati JSON?

Ho un grande set di dati con oggetti JSON da 9m a ~ 300 byte ciascuno. Sono post da un aggregatore di link: sostanzialmente link (un URL, titolo e ID autore) e commenti (testo e ID autore) + metadati. Potrebbero benissimo essere record relazionali in una tabella, tranne per il …

10 data-mining bigdata databases sql mongodb

4

Come raschiare la pagina web di imdb?

Sto provando a imparare da solo il web scraping usando Python come parte di uno sforzo per imparare l'analisi dei dati. Sto cercando di raschiare la pagina web imdb il cui url è il seguente: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=1950,2012 Sto usando il modulo BeautifulSoup. Di seguito è riportato il codice che sto usando: …

10 data-mining python scraping

2

Rilevamento anomalo / anomalia scalabile

Sto cercando di configurare una grande infrastruttura di dati utilizzando Hadoop, Hive, Elastic Search (tra gli altri) e vorrei eseguire alcuni algoritmi su determinati set di dati. Vorrei che gli algoritmi stessi fossero scalabili, quindi questo esclude l'uso di strumenti come Weka, R o persino RHadoop. Il Mahout Biblioteca Apache …

10 data-mining bigdata algorithms outlier

4

Perché diversi tipi di modelli potrebbero dare risultati quasi identici?

Ho analizzato un set di dati di ~ 400k record e 9 variabili La variabile dipendente è binaria. Ho adattato una regressione logistica, un albero di regressione, una foresta casuale e un albero potenziato con gradiente. Tutti danno virtuale identica bontà dei numeri di adattamento quando li convalido su un …

10 data-mining classification binary

4

Quali passi iniziali dovrei usare per dare un senso a grandi set di dati e quali strumenti dovrei usare?

Avvertenza: sono un principiante assoluto quando si tratta di apprendimento automatico, ma desideroso di imparare. Ho un set di dati di grandi dimensioni e sto cercando di trovare un modello in esso. Potrebbe esserci / potrebbe non esserci correlazione tra i dati, con variabili note o variabili che sono contenute …

10 machine-learning data-mining tools beginner

1

Positivo utente-prodotto (dati sui clic) disponibile. Come generare negativi (dati senza clic)?

È molto comune raccomandare che abbiamo dati sui prodotti degli utenti che hanno un'etichetta come ad esempio un "clic". Per apprendere il modello, ho bisogno di dati click e no-click. L'approccio più semplice da generare è quello di prendere coppie utente-prodotti che non si trovano nei dati sui clic. Tuttavia, …

10 machine-learning data-mining

1

Come posso calcolare il termine delta di uno strato convoluzionale, dati i termini delta e i pesi del precedente strato convoluzionale?

Sto cercando di formare una rete neurale artificiale con due strati convoluzionali (c1, c2) e due strati nascosti (c1, c2). Sto usando l'approccio standard di backpropagation. Nel passaggio indietro calcolo il termine di errore di un livello (delta) in base all'errore del livello precedente, ai pesi del livello precedente e …

10 machine-learning data-mining neural-network deep-learning

Domande taggate «data-mining»