Programmazione dataframe

5

Come dividere i dati in 3 set (treno, validazione e test)?

Ho un frame di dati Panda e desidero dividerlo in 3 set separati. So che usando train_test_split di sklearn.cross_validation, si possono dividere i dati in due set (train e test). Tuttavia, non sono riuscito a trovare alcuna soluzione sulla suddivisione dei dati in tre set. Preferibilmente, vorrei avere gli indici …

146 pandas numpy dataframe machine-learning scikit-learn

10

Suddivisione del dizionario / elenco all'interno di una colonna Panda in colonne separate

Ho dei dati salvati in un database postgreSQL. Sto interrogando questi dati usando Python2.7 e trasformandoli in un Pandas DataFrame. Tuttavia, l'ultima colonna di questo frame di dati contiene un dizionario (o un elenco?) Di valori al suo interno. DataFrame è simile al seguente: [1] df Station ID Pollutants 8809 …

146 python pandas dictionary dataframe

7

Pandaas dataframe fillna () solo alcune colonne sul posto

Sto cercando di riempire nessuno dei valori in un frame di dati Pandas con 0 per solo un sottoinsieme di colonne. Quando io faccio: import pandas as pd df = pd.DataFrame(data={'a':[1,2,3,None],'b':[4,5,None,6],'c':[None,None,7,8]}) print df df.fillna(value=0, inplace=True) print df Il risultato: a b c 0 1.0 4.0 NaN 1 2.0 5.0 NaN …

145 python pandas dataframe

7

Come trovare quali colonne contengono qualsiasi valore NaN nel frame di dati Pandas

Dato un frame di dati panda contenente possibili valori NaN sparsi qua e là: Domanda: come determinare quali colonne contengono valori NaN? In particolare, posso ottenere un elenco dei nomi delle colonne che contengono NaN?

144 python pandas dataframe nan

8

Come selezionare la prima riga di ciascun gruppo?

Ho un DataFrame generato come segue: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) I risultati sembrano: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| cat23| …

143 sql scala apache-spark dataframe apache-spark-sql

6

Come ottenere la prima colonna di un DataFrame di Panda come serie?

Provai: x=pandas.DataFrame(...) s = x.take([0], axis=1) E sottiene un DataFrame, non una serie.

143 python dataframe pandas series

14

Determina il numero di valori NA in una colonna

Voglio contare il numero di NAvalori in una colonna di frame di dati. Supponiamo che venga chiamato il mio frame di dati dfe che il nome della colonna che sto prendendo in considerazione siacol . Il modo in cui mi è venuto in mente è il seguente: sapply(df$col, function(x) sum(length(which(is.na(x))))) …

143 r dataframe

8

Rinomina l'indice Pandas DataFrame

Ho un file CSV senza intestazione, con un indice DateTime. Voglio rinominare l'indice e il nome della colonna, ma con df.rename () viene rinominato solo il nome della colonna. Bug? Sono sulla versione 0.12.0 In [2]: df = pd.read_csv(r'D:\Data\DataTimeSeries_csv//seriesSM.csv', header=None, parse_dates=[[0]], index_col=[0] ) In [3]: df.head() Out[3]: 1 0 2002-06-18 …

142 python pandas dataframe

9

Come sostituire NaNs precedendo i valori in Panda DataFrame?

Supponiamo che io abbia un DataFrame con alcuni NaNs: >>> import pandas as pd >>> df = pd.DataFrame([[1, 2, 3], [4, None, None], [None, None, 9]]) >>> df 0 1 2 0 1 2 3 1 4 NaN NaN 2 NaN NaN 9 Quello che devo fare è sostituire ognuno …

141 python python-3.x pandas dataframe nan

3

Come salvare un data.frame in R?

Ho creato un data.frame in R che non è molto grande, ma ci vuole un po 'di tempo per costruirlo. Vorrei salvarlo come file, che posso aprire di nuovo in R?

137 r dataframe

2

Come aggiungere una colonna costante in Spark DataFrame?

Voglio aggiungere una colonna in a DataFramecon un valore arbitrario (che è lo stesso per ogni riga). Viene visualizzato un errore quando utilizzo withColumncome segue: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc …

137 python apache-spark dataframe pyspark apache-spark-sql

7

Trova la colonna il cui nome contiene una stringa specifica

Ho un frame di dati con nomi di colonna e voglio trovare quello che contiene una determinata stringa, ma non corrisponde esattamente. Sto cercando 'spike'in nomi di colonna piace 'spike-2', 'hey spike', 'spiked-in'(la 'spike'parte è sempre continuo). Voglio che il nome della colonna venga restituito come stringa o variabile, quindi …

137 python python-3.x string pandas dataframe

5

Il frame di dati di Panda ottiene la prima riga di ciascun gruppo

Ho un panda DataFramecome il seguente. df = pd.DataFrame({'id' : [1,1,1,2,2,3,3,3,3,4,4,5,6,6,6,7,7], 'value' : ["first","second","second","first", "second","first","third","fourth", "fifth","second","fifth","first", "first","second","third","fourth","fifth"]}) Voglio raggruppare questo per ["id", "value"] e ottenere la prima riga di ciascun gruppo. id value 0 1 first 1 1 second 2 1 second 3 2 first 4 2 second 5 3 …

137 python pandas dataframe

6

panda colonne dataframe ridimensionamento con sklearn

Ho un frame di dati Panda con colonne di tipo misto e vorrei applicare min_max_scaler di sklearn ad alcune delle colonne. Idealmente, mi piacerebbe fare queste trasformazioni sul posto, ma non ho ancora trovato un modo per farlo. Ho scritto il seguente codice che funziona: import pandas as pd import …

137 python pandas scikit-learn dataframe

4

Qual è il modo più efficiente per creare un dizionario di due colonne Panda Dataframe?

Qual è il modo più efficiente per organizzare i seguenti panda Dataframe: data = Position Letter 1 a 2 b 3 c 4 d 5 e in un dizionario come alphabet[1 : 'a', 2 : 'b', 3 : 'c', 4 : 'd', 5 : 'e']?

136 python dictionary pandas dataframe

Domande taggate «dataframe»