Un'attività che cerca modelli in set di dati complessi e di grandi dimensioni. Di solito enfatizza le tecniche algoritmiche, ma può anche coinvolgere qualsiasi insieme di competenze, applicazioni o metodologie correlate con tale obiettivo.
Ho lavorato sull'apprendimento automatico e la bioinformatica per un po ', e oggi ho avuto una conversazione con un collega sui principali problemi generali del data mining. Il mio collega (che è un esperto di apprendimento automatico) ha affermato che, a suo avviso, l'aspetto pratico probabilmente più importante dell'apprendimento automatico …
Voglio evitare il sovradimensionamento nella foresta casuale. A questo proposito, intendo utilizzare mtry, nodesize, maxnodi ecc. Potreste aiutarmi, per favore, a scegliere i valori per questi parametri? Sto usando R. Inoltre, se possibile, per favore dimmi come posso usare la validazione incrociata di k-fold per la foresta casuale (in R).
Di recente ho scoperto un nuovo pacchetto R per la connessione all'API di LinkedIn. Sfortunatamente l'API di LinkedIn sembra piuttosto limitata all'inizio; ad esempio, è possibile ottenere solo dati di base sulle aziende e questi sono distaccati dai dati sugli individui. Vorrei ottenere dati su tutti i dipendenti di una …
Le statistiche comuni di validazione del modello come il test di Kolmogorov – Smirnov (KS), AUROC e coefficiente di Gini sono tutte funzionalmente correlate. Tuttavia, la mia domanda ha a che fare con la dimostrazione di come siano tutti correlati. Sono curioso di sapere se qualcuno mi può aiutare a …
Nella mia università, abbiamo un cluster di elaborazione HPC. Uso il cluster per addestrare classificatori e così via. Quindi, di solito, per inviare un lavoro al cluster, (ad esempio script python scikit-learn), devo scrivere uno script Bash che contenga (tra gli altri) un comando simile qsub script.py. Tuttavia, trovo questo …
Devo trovare l'accuratezza di un set di dati di allenamento applicando l'algoritmo casuale della foresta. Ma i miei tipi di set di dati sono sia categorici che numerici. Quando ho provato ad adattare quei dati, ho ricevuto un errore. 'Input contiene NaN, infinito o un valore troppo grande per dtype …
Chiuso . Questa domanda deve essere più focalizzata . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che si concentri su un problema solo modificando questo post . Chiuso 5 anni fa . Sembra che la maggior parte delle lingue abbia un certo numero …
Ho un set di dati nella seguente struttura inserito in un file CSV: Banana Water Rice Rice Water Bread Banana Juice Ogni riga indica una raccolta di articoli acquistati insieme. Ad esempio, la prima riga indica che gli elementi Banana, Watere Ricesono stati acquistati insieme. Voglio creare una visualizzazione come …
Ho un grande set di dati con oggetti JSON da 9m a ~ 300 byte ciascuno. Sono post da un aggregatore di link: sostanzialmente link (un URL, titolo e ID autore) e commenti (testo e ID autore) + metadati. Potrebbero benissimo essere record relazionali in una tabella, tranne per il …
Sto provando a imparare da solo il web scraping usando Python come parte di uno sforzo per imparare l'analisi dei dati. Sto cercando di raschiare la pagina web imdb il cui url è il seguente: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=1950,2012 Sto usando il modulo BeautifulSoup. Di seguito è riportato il codice che sto usando: …
Sto cercando di configurare una grande infrastruttura di dati utilizzando Hadoop, Hive, Elastic Search (tra gli altri) e vorrei eseguire alcuni algoritmi su determinati set di dati. Vorrei che gli algoritmi stessi fossero scalabili, quindi questo esclude l'uso di strumenti come Weka, R o persino RHadoop. Il Mahout Biblioteca Apache …
Ho analizzato un set di dati di ~ 400k record e 9 variabili La variabile dipendente è binaria. Ho adattato una regressione logistica, un albero di regressione, una foresta casuale e un albero potenziato con gradiente. Tutti danno virtuale identica bontà dei numeri di adattamento quando li convalido su un …
Avvertenza: sono un principiante assoluto quando si tratta di apprendimento automatico, ma desideroso di imparare. Ho un set di dati di grandi dimensioni e sto cercando di trovare un modello in esso. Potrebbe esserci / potrebbe non esserci correlazione tra i dati, con variabili note o variabili che sono contenute …
È molto comune raccomandare che abbiamo dati sui prodotti degli utenti che hanno un'etichetta come ad esempio un "clic". Per apprendere il modello, ho bisogno di dati click e no-click. L'approccio più semplice da generare è quello di prendere coppie utente-prodotti che non si trovano nei dati sui clic. Tuttavia, …
Sto cercando di formare una rete neurale artificiale con due strati convoluzionali (c1, c2) e due strati nascosti (c1, c2). Sto usando l'approccio standard di backpropagation. Nel passaggio indietro calcolo il termine di errore di un livello (delta) in base all'errore del livello precedente, ai pesi del livello precedente e …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.