Scienza dei dati python

1

Come codificare binariamente la variabile categoriale a più valori dal frame di dati Pandas?

Supponiamo di avere il seguente frame di dati con più valori per una determinata colonna: categories 0 - ["A", "B"] 1 - ["B", "C", "D"] 2 - ["B", "D"] Come possiamo ottenere un tavolo come questo? "A" "B" "C" "D" 0 - 1 1 0 0 1 - 0 1 …

9 python pandas

2

Implementazione di Bayes Naive complementari in Python?

Problema Ho provato a usare Naive Bayes su una serie di dati etichettati di dati sulla criminalità, ma ho ottenuto risultati davvero scarsi (precisione del 7%). Naive Bayes corre molto più velocemente degli altri alogoritmi che ho usato, quindi volevo provare a scoprire perché il punteggio era così basso. Ricerca …

9 machine-learning classification python naive-bayes-classifier

2

Raggruppamento di documenti utilizzando gli argomenti derivati dall'allocazione latente di Dirichlet

Voglio usare Latent Dirichlet Allocation per un progetto e sto usando Python con la libreria gensim. Dopo aver trovato gli argomenti, vorrei raggruppare i documenti usando un algoritmo come k-mean (idealmente vorrei usarne uno buono per i cluster sovrapposti, quindi ogni raccomandazione è benvenuta). Sono riuscito a ottenere gli argomenti, …

9 python clustering lda

1

Differenza tra interpolate () e fillna () nei panda

Poiché il metodo interpolare e fillna fa lo stesso lavoro di riempimento di valori na. Qual è la differenza di base tra i due. Qual è il significato di avere questi due diversi metodi ?? Qualcuno può spiegarmi in termini laici. Ho già visitato la documentazione ufficiale e volevo sapere …

9 python bigdata pandas jupyter

3

Migliora la velocità di filtraggio dei frame di dati Pandas

Ho un set di dati con 19 colonne e circa 250k righe. Ho lavorato con set di dati più grandi, ma questa volta Pandas ha deciso di giocare con i miei nervi. Ho provato a dividere il set di dati originale in 3 sub-frame di dati basati su alcune semplici …

9 python pandas performance

2

Come addestrare il modello per prevedere gli eventi 30 minuti prima, da una serie temporale multidimensionale

Gli esperti nel mio campo sono in grado di prevedere la probabilità che un evento (picco binario in giallo) 30 minuti prima che si verifichi . La frequenza qui è di 1 secondo, questa vista rappresenta alcune ore di dati, ho cerchiato in nero dove dovrebbe essere il modello "malizioso" …

9 machine-learning python predictive-modeling time-series scikit-learn

6

Python: gestione delle classi di squilibrio in Machine Learning python

Ho un set di dati per il quale sto cercando di prevedere le variabili target. Col1 Col2 Col3 Col4 Col5 1 2 23 11 1 2 22 12 14 1 22 11 43 38 3 14 22 25 19 3 12 42 11 14 1 22 11 43 38 2 …

9 machine-learning python data-mining dataset pandas

2

Dimensione proibitiva della foresta casuale quando salvata su disco

Quando salvato su disco usando cPickle: /programming/20662023/save-python-random-forest-model-to-file , la mia foresta casuale è di 6.57 GB. with open('rforest.cpickle', 'wb') as f: cPickle.dump(rforest, f) Voglio usare la foresta stessa per fare previsioni tramite un'API python ospitata su Heroku - ovviamente, la dimensione del file è inaccettabile. Perché la dimensione del file …

9 python random-forest

1

Python Seaborn: come vengono calcolate le barre di errore nei grafici a barre?

Sto usando la libreria Seaborn per generare grafici a barre in Python. Mi chiedo quali statistiche vengono utilizzate per calcolare le barre di errore, ma non riesco a trovare alcun riferimento a questo nella documentazione del grafico a barre del Seaborn . So che i valori della barra sono calcolati …

9 python visualization

2

Perché la regressione di Gradient Boosting prevede valori negativi quando non ci sono valori y negativi nel mio set di allenamento?

Mentre aumenta il numero di alberi in scikit imparare s' GradientBoostingRegressor, ho previsioni più negative, anche se non ci sono valori negativi nella mia formazione e testing set. Ho circa 10 funzioni, la maggior parte delle quali binarie. Alcuni dei parametri che stavo sintonizzando erano: il numero di alberi / …

8 machine-learning python algorithms scikit-learn kaggle

1

Quanto lontano si può andare con Excel? [chiuso]

Chiuso . Questa domanda deve essere più focalizzata . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che si concentri su un problema solo modificando questo post . Chiuso 2 anni fa . nella mia attività gestiamo tutte le analisi tramite Excel. Ciò include …

8 python r data-analysis excel

2

Come eliminare l'intera riga se i valori in una colonna sono NaN [chiuso]

Chiuso. Questa domanda è fuori tema . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che sia in argomento per lo scambio di stack di Data Science. Chiuso 2 anni fa . Vorrei eliminare tutte le righe contenenti valori NaN relativi a una colonna. …

8 machine-learning python data-cleaning data

1

come confrontare diversi set di dati di serie storiche

Sto cercando di rilevare alcune anomalie tra le serie storiche # usando Python e sklearn (ma altri suggerimenti di pacchetti sono sicuramente benvenuti!). Ho un set di 10 serie storiche; ogni serie temporale è costituita dai dati raccolti dal valore di coppia di uno pneumatico (quindi 10 pneumatici in totale) …

8 python clustering time-series anomaly-detection

2

LSTM: come gestire la non stazionarietà quando si prevede una serie temporale

Voglio fare previsioni un passo avanti per le serie storiche con LSTM. Per capire l'algoritmo, mi sono costruito un esempio giocattolo: un semplice processo correlato automaticamente. def my_process(n, p, drift=0, displacement=0): x = np.zeros(n) for i in range(1, n): x[i] = drift * i + p * x[i-1] + (1-p) …

8 python keras time-series lstm

1

Domande quando si passa dalla rete neurale alla vaniglia alla rete neurale ricorrente

Di recente ho imparato come funzionerebbe una rete neurale vanilla, con un determinato numero di input, nodi nascosti e lo stesso numero di output degli input. Ho esaminato vari post ora correlati alla rete neurale ricorrente e capisco il concetto alla base, ma non riesco a capire alcune parti della …

8 machine-learning python neural-network rnn

Domande taggate «python»