Tag: dataframe

在R中基于rownames合并dataframe

我怎样才能合并两个数据框的列,包含一组不同的列,但有一些具有相同名称的行? 两个数据框中不存在的行的字段应填入零: > d abcdefghij 1 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10 2 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 > e klmnopqrst 1 11 12 13 14 15 16 17 18 19 20 3 21 22 23 24 25 26 27 28 29 30 > de abcdefghijklmnopqrst […]

计算列的子集上的行意味着

给定一个示例数据框架: C1<-c(3,2,4,4,5) C2<-c(3,7,3,4,5) C3<-c(5,4,3,6,3) DF<-data.frame(ID=c("A","B","C","D","E"),C1=C1,C2=C2,C3=C3) DF ID C1 C2 C3 1 A 3 3 5 2 B 2 7 4 3 C 4 3 3 4 D 4 4 6 5 E 5 5 3 创build包含ID列和每行平均值的第二个数据框的最佳方法是什么? 像这样的东西: ID Mean A 3.66 B 4.33 C 3.33 D 4.66 E 4.33 类似于: RM<-rowMeans(DF[,2:4]) 我想保持手段与他们的ID一致。

dplyr:select包含空格的列名

df <- structure(list(`aa` = 1:3, `ab` = 2:4), .Names = c("aa", "ab" ), row.names = c(NA, -3L), class = "data.frame") 和数据看起来像 aaab 1 1 2 2 2 3 3 3 4 以下来电select select(df, 'a a') 给 Error in abs(ind[ind < 0]) : non-numeric argument to mathematical function 如何select“aa”和/或使用select将其重命名为无空格的东西? 我知道以下方法: names(df)[1] <- "a" select(df, a=1) select(df, […]

比较R中两个数据框对象是否相等?

如何检查两个对象,例如数据框,在R中的值是否相等? 通过值相等,我的意思是一个dataframe的每一列的每一行的值等于第二个dataframe中对应的行和列的值。

如何在Spark DataFrame中添加一个常量列?

我想在DataFrame添加一个任意值的列(每行都是一样的)。 我在使用withColumn时出现错误,如下所示: dt.withColumn('new_column', 10).head(5) ————————————————————————— AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) —-> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 [Row(age=2, name=u'Alice', age2=4), Row(age=5, name=u'Bob', age2=7)] 1167 """ -> 1168 return self.select('*', col.alias(colName)) 1169 1170 @ignore_unicode_prefix AttributeError: 'int' object has no attribute 'alias' […]

用dplyr改变variables的值

我经常需要根据不同variables的值来更改variables的值,如下所示: mtcars$mpg[mtcars$cyl == 4] <- NA 我试着用dplyr做这个,但是失败了: mtcars %>% mutate(mpg = mpg == NA[cyl == 4]) %>% as.data.frame() 我怎么能用dplyr做到这dplyr ?

X.在我的R数据框的列名中

几个月前 ,我问了一个关于这个问题的问题 ,我想答案已经解决了我的问题,但是我又一次遇到了问题,解决scheme对我没有任何作用。 我正在导入CSV: orders <- read.csv("<file_location>", sep=",", header=T, check.names = FALSE) 这里是数据框的结构: str(orders) 'data.frame': 3331575 obs. of 2 variables: $ OrderID : num -2034590217 -2034590216 -2031892773 -2031892767 -2021008573 … $ OrderDate: Factor w/ 402 levels "2010-10-01","2010-10-04",..: 263 263 269 268 301 300 300 300 300 300 … 如果我在第一列OrderID上运行length命令,我得到这个: length(orders$OrderID) [1] 0 如果我运行OrderDate的length ,它会正确返回: length(orders$OrderDate) […]

重复dataframeN次

我有以下数据框 data.frame(a = c(1,2,3),b = c(1,2,3)) ab 1 1 1 2 2 2 3 3 3 我想把它变成 ab 1 1 1 2 2 2 3 3 3 4 1 1 5 2 2 6 3 3 7 1 1 8 2 2 9 3 3 或重复N次。 R中有这样一个简单的function吗? 谢谢!

如何删除只包含NAs的列?

我有一个data.frame包含一些具有所有NA值的列,我怎么能从data.frame中删除它们。 我可以使用该function吗? na.omit(…) 指定一些额外的参数?

pandas独特价值多列

df = pd.DataFrame({'Col1': ['Bob', 'Joe', 'Bill', 'Mary', 'Joe'], 'Col2': ['Joe', 'Steve', 'Bob', 'Bob', 'Steve'], 'Col3': np.random.random(5)}) 返回“Col1”和“Col2”的唯一值的最佳方法是什么? 期望的输出是 'Bob', 'Joe', 'Bill', 'Mary', 'Steve'