Scienza dei dati

5

Libri di matematica per principianti per l'apprendimento automatico

Sono un ingegnere informatico senza esperienza in statistica o matematica avanzata. Sto studiando il libro Python Machine Learning di Raschka e Mirjalili, ma quando ho cercato di capire la matematica del Machine Learning, non sono riuscito a capire il grande libro che un amico mi suggerisce Gli elementi dell'apprendimento statistico …

14 machine-learning statistics reference-request math

1

RNN utilizzando più serie temporali

Sto cercando di creare una rete neurale usando serie temporali come input, al fine di addestrarlo in base al tipo di ogni serie. Ho letto che usando RNN puoi dividere l'input in batch e usare ogni punto della serie temporale in singoli neuroni e infine addestrare la rete. Quello che …

14 time-series rnn

1

Come gestire un fattore zero nel calcolo del classificatore Naive Bayes?

Se ho un set di dati di allenamento e mi alleno un classificatore Naes Bayes su di esso e ho un valore di attributo che ha probabilità zero. Come posso gestirlo se in seguito voglio prevedere la classificazione su nuovi dati? Il problema è che se nel calcolo c'è uno …

14 classification naive-bayes-classifier

5

Le moderne librerie R e / o Python rendono SQL obsoleto?

Lavoro in un ufficio in cui SQL Server è la spina dorsale di tutto ciò che facciamo, dall'elaborazione dei dati alla pulizia fino alla pulizia. Il mio collega è specializzato nella scrittura di funzioni complesse e procedure memorizzate per elaborare metodicamente i dati in entrata in modo che possano essere …

14 python r data-cleaning data sql

3

Doc2vec (gensim) - Come posso dedurre l'etichetta delle frasi invisibili?

https://radimrehurek.com/gensim/models/doc2vec.html Ad esempio, se abbiamo addestrato doc2vec con "aaaaaAAAAAaaaaaa" - "etichetta 1" “BbbbbbBBBBBbbbb" - "etichetta 2" possiamo dedurre che "aaaaAAAAaaaaAA" è l'etichetta 1 usando Doc2vec? So che Doc2vec può addestrare vettori di parole e vettori di etichette. Usando questo vettore, possiamo dedurre frasi invisibili (combinazione di parole addestrate) in quale …

14 gensim

1

Qual è la differenza tra una rete Bayes (dinamica) e un HMM?

Ho letto che HMM, filtri antiparticolato e filtri Kalman sono casi speciali di reti Bayes dinamiche. Tuttavia, conosco solo HMM e non vedo la differenza con le reti Bayes dinamiche. Qualcuno potrebbe spiegare per favore? Sarebbe bello se la tua risposta potesse essere simile alla seguente, ma per le reti …

14 bayesian-networks pgm

2

Dati ad alta dimensione: quali sono le tecniche utili da sapere?

A causa di varie maledizioni di dimensionalità , l'accuratezza e la velocità di molte delle comuni tecniche predittive si riducono su dati ad alta dimensione. Quali sono alcune delle tecniche / trucchi / euristiche più utili che aiutano a gestire efficacemente i dati ad alta dimensione? Per esempio, Alcuni metodi …

14 machine-learning statistics dimensionality-reduction

3

Quando i valori di p sono ingannevoli?

Quali sono le condizioni dei dati a cui dovremmo prestare attenzione, in cui i valori p potrebbero non essere il modo migliore per decidere la significatività statistica? Esistono tipi di problemi specifici che rientrano in questa categoria?

14 bigdata statistics

3

Ridimensionamento e riempimento delle immagini per la CNN

Voglio formare una CNN per il riconoscimento delle immagini. Le immagini per l'allenamento non hanno dimensioni fisse. Voglio che le dimensioni di input per la CNN siano 50x100 (altezza x larghezza), per esempio. Quando ridimensiono alcune immagini di piccole dimensioni (ad esempio 32x32) per le dimensioni di input, il contenuto …

14 machine-learning image-classification preprocessing image-recognition

1

Alberi decisionali: attraversamento di alberi saggio (il migliore per primo) e saggio di livello

Numero 1: Sono confuso dalla descrizione di LightGBM riguardo al modo in cui l'albero viene espanso. Dichiarano: La maggior parte degli algoritmi di apprendimento dell'albero decisionale cresce l'albero per livello (profondità) in senso orizzontale, come nella seguente immagine: Domande 1 : quali sono gli algoritmi "più" implementati in questo modo? …

14 decision-trees xgboost

3

Vantaggi dell'impilamento di LSTM?

Mi chiedo in quali situazioni è vantaggioso impilare gli LSTM?

14 machine-learning neural-network deep-learning lstm

4

Come inizializzare un nuovo modello word2vec con pesi modello pre-allenati?

Sto usando Gensim Library in Python per l'utilizzo e l'addestramento del modello word2vector. Di recente, stavo cercando di inizializzare i pesi del mio modello con alcuni modelli word2vec pre-addestrati come (modello preinstallato GoogleNewDataset). Ho avuto delle difficoltà per un paio di settimane. Ora, ho appena scoperto che in gesim esiste …

14 python nlp word-embeddings word2vec gensim

8

Python è adatto per i big data

Ho letto in questo post Il linguaggio R è adatto ai Big Data che costituiscono i big data 5TB, e mentre fa un buon lavoro nel fornire informazioni sulla fattibilità di lavorare con questo tipo di dati in Resso fornisce pochissime informazioni Python. Mi chiedevo se Pythonposso lavorare anche con …

14 bigdata python

2

Come si adattano i modelli di classificazione a coppie in xgBoost?

Per quanto ne so, per formare l'apprendimento per classificare i modelli, devi avere tre cose nel set di dati: etichetta o pertinenza ID gruppo o query vettore di funzionalità Ad esempio, il set di dati di Microsoft Learning to Rank utilizza questo formato (etichetta, ID gruppo e funzionalità). 1 qid:10 …

14 search ranking xgboost gbm

3

Cosa significa l'output della funzione model.predict da Keras?

Ho creato un modello LSTM per prevedere domande duplicate sul set di dati ufficiale di Quora. Le etichette di prova sono 0 o 1. 1 indica che la coppia di domande è duplicata. Dopo aver creato il modello usando model.fit, collaudo il modello usando model.predicti dati del test. L'output è …

14 machine-learning python neural-network keras lstm