Utilizzare per domande sulla scienza dei dati relative al linguaggio di programmazione Python. Non destinato a domande di codifica generali (-> stackoverflow).
Sto usando Gensim Library in Python per l'utilizzo e l'addestramento del modello word2vector. Di recente, stavo cercando di inizializzare i pesi del mio modello con alcuni modelli word2vec pre-addestrati come (modello preinstallato GoogleNewDataset). Ho avuto delle difficoltà per un paio di settimane. Ora, ho appena scoperto che in gesim esiste …
Ho letto in questo post Il linguaggio R è adatto ai Big Data che costituiscono i big data 5TB, e mentre fa un buon lavoro nel fornire informazioni sulla fattibilità di lavorare con questo tipo di dati in Resso fornisce pochissime informazioni Python. Mi chiedevo se Pythonposso lavorare anche con …
Ho creato un modello LSTM per prevedere domande duplicate sul set di dati ufficiale di Quora. Le etichette di prova sono 0 o 1. 1 indica che la coppia di domande è duplicata. Dopo aver creato il modello usando model.fit, collaudo il modello usando model.predicti dati del test. L'output è …
Se alleno il mio modello utilizzando il seguente codice: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) termina in circa 1 minuto. Se alleno il mio modello usando il …
Ho un dataframe che, tra l'altro, contiene una colonna del numero di millisecondi passati dal 1970-1-1. Devo convertire questa colonna di ints in dati di data / ora, quindi posso in definitiva convertirla in una colonna di dati di data / ora aggiungendo la serie di colonne di data / …
Mode Analytics ha una bella funzione heatmap ( https://community.modeanalytics.com/gallery/geographic-heat-map/ ). Ma non è favorevole al confronto delle mappe (solo una per rapporto). Ciò che consentono è che i dati vengano estratti facilmente in un notebook Python incartato. E quindi qualsiasi immagine in Python può essere facilmente aggiunta a un rapporto. …
Sto usando Scikit-learn Random Forest Classifier e voglio tracciare l'importanza delle funzionalità come in questo esempio . Tuttavia, il mio risultato è completamente diverso, nel senso che l'importanza della deviazione standard è quasi sempre maggiore dell'importanza della caratteristica stessa (vedi immagine allegata). È possibile avere questo tipo di comportamento, o …
Ho cercato di capire come rappresentare e dati di forma per fare un multidimensionale e multivariata tempo serie previsione utilizzando Keras (o tensorflow), ma sono ancora molto poco chiaro dopo aver letto molti post del blog / tutorial / documentazione su come presentare i dati nel forma corretta (la maggior …
Sto cercando di implementare questo documento su una serie di immagini mediche. Lo sto facendo a Keras. La rete è essenzialmente composta da 4 livelli conv e max-pool seguiti da uno strato completamente connesso e da un classificatore soft max. Per quanto ne so, ho seguito l'architettura menzionata nel documento. …
Ho lavorato in NLTK per un po 'usando Python. Il problema che sto affrontando è che il loro non è di aiuto disponibile sulla formazione di NER in NLTK con i miei dati personalizzati. Hanno usato MaxEnt e l'hanno addestrato su ACE corpus. Ho cercato molto sul Web, ma non …
Esistono delle regole empiriche (o regole effettive) relative alla quantità minima, massima e "ragionevole" di celle LSTM che dovrei usare? In particolare mi riferisco a BasicLSTMCell di TensorFlow e num_unitsproprietà. Si prega di supporre che ho un problema di classificazione definito da: t - number of time steps n - …
Qualcuno ha usato (e apprezzato) qualche buon pacchetto di "mining di sequenze frequenti" in Python diverso dall'FPM in MLLib? Sto cercando un pacchetto stabile, preferibilmente fermo gestito da persone. Grazie!
Ho un set di dati con ~ 1M righe e ~ 500K caratteristiche sparse. Voglio ridurre la dimensionalità da qualche parte nell'ordine delle caratteristiche dense 1K-5K. sklearn.decomposition.PCAnon funziona su dati sparsi e ho provato a usare sklearn.decomposition.TruncatedSVDma ho un errore di memoria abbastanza rapidamente. Quali sono le mie opzioni per …
Si consideri un frame di dati pyspark costituito da elementi "null" ed elementi numerici. In generale, gli elementi numerici hanno valori diversi. Come è possibile sostituire tutti i valori numerici del frame di dati con un valore numerico costante (ad esempio il valore 1)? Grazie in anticipo! Esempio per il …
Capisco cosa fa lo scalare standard e cosa fa il normalizzatore, secondo la documentazione di scikit: normalizzatore , scaler standard . So quando viene applicato lo scaler standard. Ma in quale scenario viene applicato Normalizer? Ci sono scenari in cui uno è preferito rispetto all'altro?
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.