Domande taggate «dataframe»

Un frame di dati è una struttura di dati tabulare. Di solito, contiene dati in cui le righe sono osservazioni e le colonne sono variabili di vario tipo. Mentre "data frame" o "dataframe" è il termine utilizzato per questo concetto in diverse lingue (R, Apache Spark, deedle, Maple, la libreria panda in Python e la libreria DataFrames in Julia), "tabella" è il termine utilizzato in MATLAB e SQL.



7
Pandaas dataframe fillna () solo alcune colonne sul posto
Sto cercando di riempire nessuno dei valori in un frame di dati Pandas con 0 per solo un sottoinsieme di colonne. Quando io faccio: import pandas as pd df = pd.DataFrame(data={'a':[1,2,3,None],'b':[4,5,None,6],'c':[None,None,7,8]}) print df df.fillna(value=0, inplace=True) print df Il risultato: a b c 0 1.0 4.0 NaN 1 2.0 5.0 NaN …
145 python  pandas  dataframe 


8
Come selezionare la prima riga di ciascun gruppo?
Ho un DataFrame generato come segue: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) I risultati sembrano: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| cat23| …


14
Determina il numero di valori NA in una colonna
Voglio contare il numero di NAvalori in una colonna di frame di dati. Supponiamo che venga chiamato il mio frame di dati dfe che il nome della colonna che sto prendendo in considerazione siacol . Il modo in cui mi è venuto in mente è il seguente: sapply(df$col, function(x) sum(length(which(is.na(x))))) …
143 r  dataframe 

8
Rinomina l'indice Pandas DataFrame
Ho un file CSV senza intestazione, con un indice DateTime. Voglio rinominare l'indice e il nome della colonna, ma con df.rename () viene rinominato solo il nome della colonna. Bug? Sono sulla versione 0.12.0 In [2]: df = pd.read_csv(r'D:\Data\DataTimeSeries_csv//seriesSM.csv', header=None, parse_dates=[[0]], index_col=[0] ) In [3]: df.head() Out[3]: 1 0 2002-06-18 …
142 python  pandas  dataframe 


3
Come salvare un data.frame in R?
Ho creato un data.frame in R che non è molto grande, ma ci vuole un po 'di tempo per costruirlo. Vorrei salvarlo come file, che posso aprire di nuovo in R?
137 r  dataframe 

2
Come aggiungere una colonna costante in Spark DataFrame?
Voglio aggiungere una colonna in a DataFramecon un valore arbitrario (che è lo stesso per ogni riga). Viene visualizzato un errore quando utilizzo withColumncome segue: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc …


5
Il frame di dati di Panda ottiene la prima riga di ciascun gruppo
Ho un panda DataFramecome il seguente. df = pd.DataFrame({'id' : [1,1,1,2,2,3,3,3,3,4,4,5,6,6,6,7,7], 'value' : ["first","second","second","first", "second","first","third","fourth", "fifth","second","fifth","first", "first","second","third","fourth","fifth"]}) Voglio raggruppare questo per ["id", "value"] e ottenere la prima riga di ciascun gruppo. id value 0 1 first 1 1 second 2 1 second 3 2 first 4 2 second 5 3 …
137 python  pandas  dataframe 



Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.