Scienza dei dati python

1

Uscita della regressione lineare XGBoost errata

Sono un principiante di XGBoost, quindi scusate la mia ignoranza. Ecco il codice Python: import pandas as pd import xgboost as xgb df = pd.DataFrame({'x':[1,2,3], 'y':[10,20,30]}) X_train = df.drop('y',axis=1) Y_train = df['y'] T_train_xgb = xgb.DMatrix(X_train, Y_train) params = {"objective": "reg:linear"} gbm = xgb.train(dtrain=T_train_xgb,params=params) Y_pred = gbm.predict(xgb.DMatrix(pd.DataFrame({'x':[4,5]}))) print Y_pred L'output è: …

10 python linear-regression xgboost

2

Discesa gradiente stocastica basata su operazioni vettoriali?

supponiamo che io voglia addestrare un algoritmo stocastico di regressione della discesa del gradiente usando un set di dati che ha N campioni. Poiché la dimensione del set di dati è fissa, riutilizzerò i dati T volte. Ad ogni iterazione o "epoca", utilizzo ogni campione di allenamento esattamente una volta …

10 python gradient-descent regression

2

Quanto tempo impiegano i classificatori di scikit a classificare?

Sto programmando di utilizzare il classificatore SVM (scikit linear support vector machine) per la classificazione del testo su un corpus costituito da 1 milione di documenti etichettati. Quello che sto pianificando di fare è che, quando un utente inserisce una parola chiave, il classificatore prima lo classificherà in una categoria, …

10 machine-learning classification python scikit-learn

2

Debug di reti neurali

Ho creato una rete neurale artificiale in Python usando la funzione di ottimizzazione scipy.optimize.minimize (gradiente coniugato). Ho implementato il controllo del gradiente, ricontrollato tutto ecc. E sono abbastanza sicuro che funzioni correttamente. L'ho eseguito un paio di volte e raggiunge "Ottimizzazione terminata correttamente", tuttavia quando aumento il numero di livelli …

10 machine-learning python neural-network

2

Max_depth in scikit è l'equivalente della potatura negli alberi delle decisioni?

Stavo analizzando il classificatore creato usando un albero decisionale. C'è un parametro di ottimizzazione chiamato max_depth nell'albero decisionale di scikit. Questo equivalente di potatura è un albero decisionale? In caso contrario, come potrei potare un albero decisionale usando scikit? dt_ap = tree.DecisionTreeClassifier(random_state=1, max_depth=13) boosted_dt = AdaBoostClassifier(dt_ap, random_state=1) boosted_dt.fit(X_train, Y_train)

10 machine-learning python scikit-learn decision-trees supervised-learning

3

Relazione tra convoluzione in matematica e CNN

Ho letto la spiegazione della convoluzione e la capisco fino a un certo punto. Qualcuno può aiutarmi a capire come questa operazione si collega alla convoluzione nelle reti neurali convoluzionali? È una funzione simile a un filtro gche applica peso?

10 machine-learning neural-network deep-learning cnn convolution machine-learning ensemble-modeling machine-learning classification data-mining clustering machine-learning feature-selection convnet pandas graphs ipython machine-learning apache-spark multiclass-classification naive-bayes-classifier multilabel-classification machine-learning data-mining dataset data-cleaning data machine-learning data-mining statistics correlation machine-learning data-mining dataset data-cleaning data beginner career python r visualization machine-learning data-mining nlp stanford-nlp dataset linear-regression time-series correlation anomaly-detection ensemble-modeling data-mining machine-learning python data-mining recommender-system machine-learning cross-validation model-selection scoring prediction sequential-pattern-mining categorical-data python tensorflow image-recognition statistics machine-learning data-mining predictive-modeling data-cleaning preprocessing classification deep-learning tensorflow machine-learning algorithms data keras categorical-data reference-request loss-function classification logistic-regression apache-spark prediction naive-bayes-classifier beginner nlp word2vec vector-space-models scikit-learn decision-trees data programming

3

Come fare il prodotto interno in lotti a Tensorflow?

Ho due tensori a:[batch_size, dim] b:[batch_size, dim]. Voglio fare un prodotto interno per ogni coppia nel lotto, generando c:[batch_size, 1], dove c[i,0]=a[i,:].T*b[i,:]. Come?

10 tensorflow scikit-learn svm cross-validation feature-selection bayesian machine-learning decision-trees parameter-estimation neural-network convnet neural-network regularization visualization machine-learning similarity python pandas indexing r data-cleaning machine-learning predictive-modeling data-cleaning recommender-system python sequential-pattern-mining software-recommendation r visualization gaussian distribution machine-learning data-mining bigdata apache-hadoop predictive-modeling logistic-regression sampling machine-learning regression feature-selection mongodb neural-network inception machine-learning classification dataset databases logistic-regression deep-learning backpropagation classification data-mining multilabel-classification text-mining data-cleaning unsupervised-learning anomaly-detection python r python pandas

2

Quando scegliere la regressione lineare o la regressione dell'albero decisionale o della foresta casuale? [chiuso]

Chiuso . Questa domanda deve essere più focalizzata . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che si concentri su un problema solo modificando questo post . Chiuso 4 anni fa . Sto lavorando a un progetto e ho difficoltà a decidere quale …

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

1

Perché il mio modello Keras impara a riconoscere lo sfondo?

Sto cercando di addestrare l' implementazione di Keras di Deeplabv3 + su Pascal VOC2012, usando il modello predefinito (che è stato anche addestrato su quel set di dati). Ho ottenuto strani risultati con l'accuratezza che converge rapidamente in 1.0: 5/5 [==============================] - 182s 36s/step - loss: 26864.4418 - acc: 0.7669 …

9 python deep-learning keras tensorflow

1

Dati squilibrati che causano una classificazione errata nel set di dati multiclasse

Sto lavorando alla classificazione del testo in cui ho 39 categorie / classi e 8,5 milioni di record. (In futuro aumenteranno i dati e le categorie). La struttura o il formato dei miei dati è il seguente. ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | …

9 machine-learning python classification scikit-learn multiclass-classification

1

HDF5 può essere scritto e letto in modo affidabile simultaneamente da processi python separati?

Sto scrivendo uno script per registrare i dati live nel tempo in un singolo file HDF5 che include il mio intero set di dati per questo progetto. Sto lavorando con Python 3.6 e ho deciso di creare uno strumento da riga di comando utilizzando clickper raccogliere i dati. La mia …

9 python dataset

2

Perché il tasso di apprendimento sta facendo salire alle stelle i pesi della mia rete neurale?

Sto usando tensorflow per scrivere semplici reti neurali per un po 'di ricerca e ho avuto molti problemi con i pesi' nan 'durante l'allenamento. Ho provato molte soluzioni diverse come cambiare l'ottimizzatore, cambiare la perdita, la dimensione dei dati, ecc. Ma senza alcun risultato. Infine, ho notato che un cambiamento …

9 machine-learning python tensorflow optimization gradient-descent

3

Esporta pesi (formula) da Random Forest Regressor in Scikit-Learn

Ho addestrato un modello di previsione con Scikit Learn in Python (Random Forest Regressor) e voglio estrarre in qualche modo i pesi di ogni funzione per creare uno strumento eccellente per la previsione manuale. L'unica cosa che ho trovato è il model.feature_importances_ma non aiuta. C'è un modo per raggiungerlo? def …

9 python predictive-modeling regression random-forest scikit-learn

7

Libreria Python in grado di calcolare la matrice di confusione per la classificazione multi-etichetta

Sto cercando una libreria Python in grado di calcolare la matrice di confusione per la classificazione multi-etichetta . FYI: scikit-learn non supporta multi-etichetta per matrice di confusione) Qual è la differenza tra Multiclass e Multilabel Problem

9 python software-recommendation multilabel-classification

2

Regressione lineare multivariata in Python

Sto cercando un pacchetto Python che implementa la regressione lineare multivariata. (Nota terminologica: la regressione multivariata si occupa del caso in cui ci sono più di una variabile dipendente mentre la regressione multipla si occupa del caso in cui esiste una variabile dipendente ma più di una variabile indipendente.)

9 python regression library software-recommendation

Domande taggate «python»