Scienza dei dati

5

Differenza tra la rete di politiche di AlphaGo e la rete di valori

Stavo leggendo un riassunto di alto livello su AlphaGo di Google ( http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html ) e ho trovato i termini "policy network "e" value network ". Ad alto livello, capisco che la rete politica viene utilizzata per suggerire mosse e la rete del valore viene utilizzata per "Ridurre la profondità dell'albero …

25 machine-learning reinforcement-learning

3

Coefficiente di Gini vs impurità di Gini - alberi decisionali

Il problema si riferisce alla costruzione di alberi decisionali. Secondo Wikipedia il " coefficiente di Gini " non deve essere confuso con "l' impurità di Gini ". Tuttavia, entrambe le misure possono essere utilizzate quando si costruisce un albero decisionale: possono supportare le nostre scelte quando si divide il set …

25 data-mining

4

Word2Vec per il riconoscimento dell'entità denominata

Sto cercando di utilizzare l'implementazione di word2vec di Google per creare un sistema di riconoscimento delle entità denominato. Ho sentito che le reti neurali ricorsive con propagazione posteriore attraverso la struttura sono adatte per compiti di riconoscimento di entità nominate, ma non sono stato in grado di trovare un'implementazione decente …

25 machine-learning python neural-network nlp

3

Perché abbiamo bisogno di XGBoost e Random Forest?

Non ero chiaro su un paio di concetti: XGBoost converte gli studenti deboli in studenti forti. Qual è il vantaggio di farlo? Combinando molti studenti deboli invece di usare un solo albero? La foresta casuale usa vari campioni dall'albero per creare un albero. Qual è il vantaggio di questo metodo …

25 machine-learning data-mining random-forest decision-trees xgboost

5

Immagine VM per progetti di data science

Poiché ci sono numerosi strumenti disponibili per le attività di data science, è complicato installare tutto e creare un sistema perfetto. Esiste un'immagine Linux / Mac OS con Python, R e altri strumenti di data science open source installati e disponibili per l'uso immediato? Un Ubuntu o un sistema operativo …

24 python r tools

4

Scikit-learn: far prevedere SGDClassifier e una regressione logistica

Un modo per addestrare una regressione logistica consiste nell'utilizzare la discesa graduale stocastica, a cui scikit-learn offre un'interfaccia. Quello che vorrei fare è prendere un SGDClassifier di scikit-learn e farlo segnare come una regressione logistica qui . Tuttavia, devo mancare alcuni miglioramenti dell'apprendimento automatico, poiché i miei punteggi non sono …

24 python logistic-regression scikit-learn gradient-descent

9

Qualche console R online?

Sto cercando una console online per la lingua R. Come scrivo il codice e il server dovrebbe eseguire e fornirmi l'output. Simile al sito Web Datacamp.

24 r statistics

4

Random Forest si allena?

Ho letto delle foreste casuali ma non riesco davvero a trovare una risposta definitiva al problema del sovradimensionamento. Secondo il documento originale di Breiman, non dovrebbero esagerare quando si aumenta il numero di alberi nella foresta, ma sembra che non ci sia consenso al riguardo. Questo mi sta creando una …

24 machine-learning random-forest

3

Perché le comunità NLP e Machine Learning sono interessate all'apprendimento profondo?

Spero che tu mi possa aiutare, poiché ho alcune domande su questo argomento. Sono nuovo nel campo dell'apprendimento profondo e, mentre ho fatto alcuni tutorial, non riesco a mettere in relazione o distinguere i concetti gli uni dagli altri.

24 machine-learning data-mining neural-network nlp deep-learning

3

Best practice per l'archiviazione di modelli di machine learning Python

Quali sono le migliori pratiche per salvare, archiviare e condividere modelli di apprendimento automatico? In Python, generalmente archiviamo la rappresentazione binaria del modello, usando pickle o joblib. I modelli, nel mio caso, possono essere ~ 100Mo più grandi. Inoltre, joblib può salvare un modello su più file se non impostato …

24 python databases binary

4

Significato delle caratteristiche latenti?

Sto imparando la fattorizzazione a matrice per i sistemi di raccomandazione e sto vedendo il termine latent featuresricorrere troppo frequentemente ma non riesco a capire cosa significhi. So cos'è una funzionalità ma non capisco l'idea di funzionalità latenti. Potresti spiegarlo, per favore? O almeno indicami un documento / un luogo …

24 machine-learning data-mining recommender-system

4

È sempre meglio utilizzare l'intero set di dati per addestrare il modello finale?

Una tecnica comune dopo l'addestramento, la convalida e il test del modello di preferenza di Machine Learning consiste nell'utilizzare il set di dati completo, incluso il sottoinsieme di test, per formare un modello finale su cui distribuirlo , ad esempio un prodotto. La mia domanda è: è sempre il meglio …

24 machine-learning dataset training accuracy

3

Qual è la differenza tra la discesa del gradiente e la discesa del gradiente stocastico?

Qual è la differenza tra la discesa del gradiente e la discesa del gradiente stocastico? Non ho molta familiarità con questi, puoi descriverne la differenza con un breve esempio?

24 machine-learning neural-network deep-learning gradient-descent

3

Idee per il progetto Data Science [chiuso]

Chiuso . Questa domanda è basata sull'opinione . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che possa essere risolta con fatti e citazioni modificando questo post . Chiuso 5 anni fa . Non so se questo sia il posto giusto per porre questa …

23 machine-learning bigdata dataset

3

La modellazione con foreste casuali richiede una convalida incrociata?

Per quanto ho visto, le opinioni tendono a differire su questo. Le migliori pratiche detterebbero certamente l'uso della convalida incrociata (soprattutto se si confrontano RF con altri algoritmi sullo stesso set di dati). D'altra parte, la fonte originale afferma che il fatto che l'errore OOB viene calcolato durante l'addestramento del …

23 random-forest cross-validation