Tag: dplyr

删除dplyrpipe道中的NA

我试图用dplyrpipe道从子集中删除NA。 我的答案是错过了一个步骤。 我试图学习如何使用dplyr编写函数: > outcome.df%>% + group_by(Hospital,State)%>% + arrange(desc(HeartAttackDeath,na.rm=TRUE))%>% + head() Source: local data frame [6 x 5] Groups: Hospital, State 医院国家心脏病攻击 1 ABBEVILLE地区医疗中心SC NA 2 ABBEVILLE GENERAL HOSPITAL LA NA 3 ABBOTT西北医院MN 12.3 4德国ABILENE区域医疗中心17.2 5 ABINGTON MEMORIAL HOSPITAL PA 14.3 6亚伯拉罕林肯纪念医院IL NA variables未显示:HeartFailureDeath(dbl),PneumoniaDeath (DBL)

在'dplyr'库中用'select'functionselect唯一的值

是否有可能使用dplyr库中的select函数从dplyr的列中select所有唯一值? 像SQL表示法中的“ SELECT DISTINCT field1 FROM table1 ”。 谢谢!

查找使用dplyr / group_by的行数

我正在使用mtcars数据集。 我想查找特定数据组合的logging数。 与SQL中的count(*) group by子句非常相似。 ddply()来自plyr正在为我工​​作 library(plyr) ddply(mtcars, .(cyl,gear),nrow) 有输出 cyl gear V1 1 4 3 1 2 4 4 8 3 4 5 2 4 6 3 2 5 6 4 4 6 6 5 1 7 8 3 12 8 8 5 2 使用这个代码 library(dplyr) g <- group_by(mtcars, cyl, gear) summarise(g, length(gear)) 有输出 […]

使用group_by(多个variables)时dplyr问题

我想开始使用dplyr来代替ddply,但是我无法得到它是如何工作的(我已阅读文档)。 例如,为什么当我尝试mutate()时,“group_by”函数不工作,因为它应该? 看mtcars: 库(车) 说我做了一个data.frame这是一个mtcars总结,分为“cyl”和“齿轮”: df1 <- mtcars %.% group_by(cyl, gear) %.% summarise( newvar = sum(wt) ) 然后说我想进一步总结这个数据框。 使用ddply,这将是直接的,但是当我尝试使用dplyr时,它实际上并不是“按…分组”: df2 <- df1 %.% group_by(cyl) %.% mutate( newvar2 = newvar + 5 ) 仍产生一个未分组的输出: cyl gear newvar newvar2 1 6 3 6.675 11.675 2 4 4 19.025 24.025 3 6 4 12.375 17.375 4 6 5 […]

dplyr:select包含空格的列名

df <- structure(list(`aa` = 1:3, `ab` = 2:4), .Names = c("aa", "ab" ), row.names = c(NA, -3L), class = "data.frame") 和数据看起来像 aaab 1 1 2 2 2 3 3 3 4 以下来电select select(df, 'a a') 给 Error in abs(ind[ind < 0]) : non-numeric argument to mathematical function 如何select“aa”和/或使用select将其重命名为无空格的东西? 我知道以下方法: names(df)[1] <- "a" select(df, a=1) select(df, […]

dplyr :: select函数与MASS :: select发生冲突

如果我加载MASS包: library(MASS) 然后加载试图运行dplyr::select ,我得到一个错误: library(dplyr) mtcars %.% select(mpg) # Error in select(`__prev`, mpg) : unused argument (mpg) 我如何使用dplyr::select加载MASS包?

用dplyr改变variables的值

我经常需要根据不同variables的值来更改variables的值,如下所示: mtcars$mpg[mtcars$cyl == 4] <- NA 我试着用dplyr做这个,但是失败了: mtcars %>% mutate(mpg = mpg == NA[cyl == 4]) %>% as.data.frame() 我怎么能用dplyr做到这dplyr ?

在data.frame中使用dplyr过滤全部案例(逐案删除)

是否有可能使用dplyr过滤完整个案的data.frame? complete.cases一个包含所有variables的列表。 但是,这是a)详细的时候有很多的variables,b)当variables名称是不可知的(例如在一个函数,处理任何data.frame)。 library(dplyr) df = data.frame( x1 = c(1,2,3,NA), x2 = c(1,2,NA,5) ) df %.% filter(complete.cases(x1,x2))

用dplyr拟合几个回归模型

我想使用dplyr为每个小时(因子variables)拟合一个模型,我得到一个错误,并且我不太确定有什么问题。 df.h <- data.frame( hour = factor(rep(1:24, each = 21)), price = runif(504, min = -10, max = 125), wind = runif(504, min = 0, max = 2500), temp = runif(504, min = – 10, max = 25) ) df.h <- tbl_df(df.h) df.h <- group_by(df.h, hour) group_size(df.h) # checks out, 21 obs. for each factor […]

结合mutate和条件值

在一个包含四列的大数据框(“myfile”)中,我必须根据前四列添加一个包含值的第五列。 最近我已经成为dplyr的粉丝,主要是因为它在大型数据集中的速度。 所以我想知道如果我可以使用mutate函数来处理我的问题。 我的dataframe(实际上是一个更短的版本)看起来有点像这样: V1 V2 V3 V4 1 1 2 3 5 2 2 4 4 1 3 1 4 1 1 4 4 5 1 3 5 5 5 5 4 第五列(V5)的值基于一些有条件的规则: if (V1==1 & V2!=4){ V5 <- 1 } else if (V2==4 & V3!=1){ V5 <- 2 } else { V5 <- […]