Utilizzare per domande sulla scienza dei dati relative al linguaggio di programmazione Python. Non destinato a domande di codifica generali (-> stackoverflow).
Sto usando Neural Networks per risolvere diversi problemi di machine learning. Sto usando Python e pybrain ma questa libreria è quasi fuori produzione. Ci sono altre buone alternative in Python?
Sono un principiante della scienza dei dati e non capisco la differenza tra fite i fit_transformmetodi di scikit-learn. Qualcuno può semplicemente spiegare perché potremmo aver bisogno di trasformare i dati? Che cosa significa adattamento del modello ai dati di allenamento e trasformazione in dati di test? Significa, ad esempio, convertire …
Ho appena iniziato a sviluppare un'applicazione di apprendimento automatico per scopi accademici. Attualmente sto usando R e mi sto allenando. Tuttavia, in molti posti, ho visto persone che usano Python . Cosa usano le persone nel mondo accademico e nell'industria e qual è la raccomandazione?
Sto cercando di eseguire SVR usando scikit learn (python) su un set di dati di allenamento con 595605 righe e 5 colonne (caratteristiche) e test set di dati con 397070 righe. I dati sono stati pre-elaborati e regolarizzati. Sono in grado di eseguire correttamente gli esempi di test, ma eseguendo …
Uso i panda da un po 'di tempo. Ma non capisco qual è la differenza tra isna()e isnull()nei panda. E, soprattutto, quale utilizzare per identificare i valori mancanti nel frame di dati. Qual è la differenza di base alla base di come viene rilevato un valore come uno nao null?
Sto riscontrando alcuni problemi su un'applicazione dell'albero decisionale / foresta casuale. Sto cercando di adattare un problema che ha numeri e stringhe (come il nome del paese) come funzionalità. Ora la libreria, scikit-learn prende solo i numeri come parametri, ma voglio iniettare le stringhe oltre a portare una notevole quantità …
Sto cercando di iniziare a conoscere gli RNN e sto usando Keras. Comprendo le premesse di base dei livelli Vanilla RNN e LSTM, ma ho difficoltà a comprendere un certo punto tecnico per l'allenamento. Nella documentazione di keras , dice che l'input di un layer RNN deve avere forma (batch_size, …
Contesto del problema: sto lavorando a un progetto che prevede file di registro simili a quelli presenti nello spazio di monitoraggio IT (per la mia migliore comprensione dello spazio IT). Questi file di registro sono dati di serie temporali, organizzati in centinaia / migliaia di righe di vari parametri. Ogni …
Qual è il giusto approccio e algoritmo di clustering per il clustering di geolocalizzazione? Sto usando il seguente codice per raggruppare le coordinate di geolocalizzazione: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, y …
Sto lavorando a un progetto di data science usando Python. Il progetto prevede diverse fasi. Ogni fase comprende l'acquisizione di un set di dati, l'utilizzo di script Python, dati ausiliari, configurazione e parametri e la creazione di un altro set di dati. Conservo il codice in git, quindi quella parte …
Sto usando TensorFlow per esperimenti principalmente con reti neurali. Anche se ho fatto alcuni esperimenti (XOR-Problem, MNIST, alcune cose di regressione, ...) ora, faccio fatica a scegliere la funzione di costo "corretta" per problemi specifici perché nel complesso potrei essere considerato un principiante. Prima di arrivare a TensorFlow ho codificato …
Ho ottenuto ValueError durante la previsione dei dati di test utilizzando un modello RandomForest. Il mio codice: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) L'errore: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). Come trovo i valori errati …
Ho un frame di dati Panda con diverse voci e voglio calcolare la correlazione tra le entrate di un tipo di negozi. Esistono numerosi negozi con dati sul reddito, classificazione dell'area di attività (teatro, negozi di vestiti, cibo ...) e altri dati. Ho provato a creare un nuovo frame di …
Come si può programmare nella libreria keras (o tensorflow) per partizionare l'allenamento su più GPU? Diciamo che ti trovi in un'istanza di Amazon ec2 con 8 GPU e vorresti usarli tutti per allenarti più velocemente, ma il tuo codice è solo per una singola CPU o GPU.
Attualmente sto provando ad aprire un file con Panda e Python per scopi di apprendimento automatico, sarebbe l'ideale per me averli tutti in un DataFrame. Ora il file ha una dimensione di 18 GB e la mia RAM è di 32 GB, ma continuo a ricevere errori di memoria. Dalla …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.