Scienza dei dati apache-spark

3

Unione di più frame di dati in ordine di riga in PySpark

Ho telai 10 di dati pyspark.sql.dataframe.DataFrame, ottenuti da randomSplitcome (td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)Ora voglio unire 9 td's in un singolo frame di dati, come devo fare? Ho già provato con …

21 python apache-spark cross-validation pyspark

5

ingrandisci la mappa di calore dei nati marini

Creo un corr()df da un df originale. Il corr()df è venuto fuori 70 X 70 ed è impossibile visualizzare il heatmap ... sns.heatmap(df). Se provo a visualizzare il corr = df.corr(), la tabella non si adatta allo schermo e posso vedere tutte le correlazioni. È un modo per stampare l'intero …

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

2

Come calcolare la media di una colonna del frame di dati e trovare il 10% superiore

Sono molto nuovo di Scala e Spark e sto lavorando ad alcuni esercizi fatti da sé usando le statistiche del baseball. Sto usando una classe di casi per creare un RDD e assegnare uno schema ai dati, quindi lo sto trasformando in un DataFrame in modo da poter usare SparkSQL …

13 apache-spark scala

3

Sostituisci tutti i valori numerici in un frame di dati pyspark con un valore costante

Si consideri un frame di dati pyspark costituito da elementi "null" ed elementi numerici. In generale, gli elementi numerici hanno valori diversi. Come è possibile sostituire tutti i valori numerici del frame di dati con un valore numerico costante (ad esempio il valore 1)? Grazie in anticipo! Esempio per il …

12 python apache-spark

3

Problema con IPython / Jupyter su Spark (alias non riconosciuto)

Sto lavorando alla configurazione di una serie di VM per sperimentare Spark prima di spendere e spendere soldi per costruire un cluster con dell'hardware. Nota veloce: sono un accademico con un background nell'apprendimento automatico applicato e lavoro un po 'abbandonato nella scienza dei dati. Uso gli strumenti per l'informatica, raramente …

11 python apache-spark pyspark ipython

2

Come convertire i dati categorici in dati numerici in Pyspark

Sto usando il notebook Ipython per lavorare con le applicazioni pyspark. Ho un file CSV con molte colonne categoriche per determinare se il reddito rientra o supera l'intervallo 50k. Vorrei eseguire un algoritmo di classificazione prendendo tutti gli input per determinare l'intervallo di reddito. Ho bisogno di costruire un dizionario …

11 python apache-spark categorical-data pyspark

1

Spark ALS: raccomandare per i nuovi utenti

La domanda Come posso prevedere la valutazione per un nuovo utente in un modello ALS addestrato in Spark? (Nuovo = non visto durante il tempo di allenamento) Il problema Sto seguendo il tutorial ufficiale di Spark ALS qui: http://ampcamp.berkeley.edu/big-data-mini-course/movie-recommendation-with-mllib.html Sono in grado di creare un buon consulente con un MSE …

10 apache-spark recommender-system pyspark

1

Analisi dei log del server mediante machine learning

Mi è stato assegnato questo compito per analizzare i registri del server della nostra applicazione che contiene registri delle eccezioni, registri degli eventi dei registri del database, ecc. Sono nuovo di machine learning, usiamo Spark con ricerca elastica e Sparks MLlib (o PredictionIO). Un esempio del desiderato il risultato sarebbe …

10 machine-learning predictive-modeling apache-spark

1

Spark, suddividendo in modo ottimale un singolo RDD in due

Ho un set di dati di grandi dimensioni che devo dividere in gruppi in base a parametri specifici. Voglio che il lavoro venga elaborato nel modo più efficiente possibile. Posso immaginare due modi per farlo Opzione 1 : creare una mappa dall'RDD originale e filtrare def customMapper(record): if passesSomeTest(record): return …

10 apache-spark pyspark

3

Relazione tra convoluzione in matematica e CNN

Ho letto la spiegazione della convoluzione e la capisco fino a un certo punto. Qualcuno può aiutarmi a capire come questa operazione si collega alla convoluzione nelle reti neurali convoluzionali? È una funzione simile a un filtro gche applica peso?

10 machine-learning neural-network deep-learning cnn convolution machine-learning ensemble-modeling machine-learning classification data-mining clustering machine-learning feature-selection convnet pandas graphs ipython machine-learning apache-spark multiclass-classification naive-bayes-classifier multilabel-classification machine-learning data-mining dataset data-cleaning data machine-learning data-mining statistics correlation machine-learning data-mining dataset data-cleaning data beginner career python r visualization machine-learning data-mining nlp stanford-nlp dataset linear-regression time-series correlation anomaly-detection ensemble-modeling data-mining machine-learning python data-mining recommender-system machine-learning cross-validation model-selection scoring prediction sequential-pattern-mining categorical-data python tensorflow image-recognition statistics machine-learning data-mining predictive-modeling data-cleaning preprocessing classification deep-learning tensorflow machine-learning algorithms data keras categorical-data reference-request loss-function classification logistic-regression apache-spark prediction naive-bayes-classifier beginner nlp word2vec vector-space-models scikit-learn decision-trees data programming

3

Quando scade la cache per un RDD in pyspark?

Usiamo .cache()su RDD per la memorizzazione nella cache persistente di un set di dati, la mia preoccupazione è quando questa cache sarà scaduta ?. dt = sc.parallelize([2, 3, 4, 5, 6]) dt.cache()

10 apache-spark pyspark

2

Quando scegliere la regressione lineare o la regressione dell'albero decisionale o della foresta casuale? [chiuso]

Chiuso . Questa domanda deve essere più focalizzata . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che si concentri su un problema solo modificando questo post . Chiuso 4 anni fa . Sto lavorando a un progetto e ho difficoltà a decidere quale …

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

1

Calcola la somiglianza del coseno in Apache Spark

Ho un DataFrame con IDF di determinate parole calcolate. Per esempio (10,[0,1,2,3,4,5],[0.413734499590671,0.4244680552337798,0.4761400657781007, 1.4004620708967006,0.37876590175292424,0.48374466516332]) .... and so on Ora fornisci una query Q, posso calcolare il TF-IDF di questa query. Come posso calcolare la somiglianza del coseno della query con tutti i documenti nel frame di dati (ci sono quasi milioni …

9 machine-learning nlp apache-spark cosine-distance

4

Classe sbilanciata: class_weight per algoritmi ML in Spark MLLib

In python sklearn, ci sono più algoritmi (ad es. Regressione, foresta casuale ... ecc.) Che hanno il parametro class_weight per gestire i dati sbilanciati. Tuttavia, non trovo tale parametro per gli algoritmi MLLib. Esiste un piano per implementare class_weight per alcuni algoritmi MLLib? O esiste un approccio in MLLib per …

8 machine-learning apache-spark unbalanced-classes weighted-data

4

Come eseguire un'applicazione pyspark nel prompt dei comandi di Windows 8

Ho uno script Python scritto con Spark Context e voglio eseguirlo. Ho provato a integrare IPython con Spark, ma non ci sono riuscito. Quindi, ho provato a impostare il percorso spark [Cartella / bin installazione] come variabile d'ambiente e ho chiamato il comando spark-submit nel prompt cmd. Credo che stia …

8 python apache-spark pyspark ipython

Domande taggate «apache-spark»