Tag: dplyr

R用tidyr传播多列: 以此示例variables df <- data.frame(month=rep(1:3,2), student=rep(c("Amy", "Bob"), each=3), A=c(9, 7, 6, 8, 6, 9), B=c(6, 7, 8, 5, 6, 7)) 我可以使用spread从tidyr改变这种广泛的格式。 > df[, -4] %>% spread(student, A) month Amy Bob 1 1 9 8 2 2 7 6 3 3 6 9 但是，我怎么能传播两个值，例如A和B ，这样的输出是类似的 month Amy.A Bob.A Amy.B Bob.B 1 1 9 8 6 5 2 […]

dplyr：“不应该直接调用n（）：函数中的错误”: 我试图重现dplyr包中的一个例子，但是这个错误信息。我期待看到每个组合的频率产生一个新的列n。有人能告诉我我失踪了吗？我三重检查，包被加载。感谢您的帮助，一如既往。 library(dplyr) # summarise peels off a single layer of grouping by_vs_am <- group_by(mtcars, vs, am) by_vs <- summarise(by_vs_am, n = n()) #Error in n() : This function should not be called directly

dplyr中的mutate_each / summarise_each：如何select某些列并为突变的列赋予新的名称？: 我对dplyr动词mutate_each.有点困惑mutate_each. 使用基本的mutate将一列数据转换成z分数，并在你的data.frame中创build一个新的列（这里的名字是z_score_data ）是z_score_data ： newDF <- DF %>% select(one_column) %>% mutate(z_score_data = one_column – (mean(one_column) / sd(one_column)) 但是，由于我想要转换多列数据，所以我应该使用mutate_each动词。 newDF <- DF %>% mutate_each(funs(scale)) 到现在为止还挺好。但是至今我还没有弄明白：我怎么能给这些新的列适当的名字，就像我可以在mutate ？我怎样才能select我想变异的某些列，就像我在第一种情况下select的一样？谢谢你的帮助。

按组获得最高值: 这是一个示例数据框架： d <- data.frame( x = runif(90), grp = gl(3, 30) ) 我想要d的子集，包含每个值为grp的前5个值为x的行。使用base-R，我的方法是这样的： ordered <- d[order(d$x, decreasing = TRUE), ] splits <- split(ordered, ordered$grp) heads <- lapply(splits, head) do.call(rbind, heads) ## x grp ## 1.19 0.8879631 1 ## 1.4 0.8844818 1 ## 1.12 0.8596197 1 ## 1.26 0.8481809 1 ## 1.18 0.8461516 1 ## […]

dplyr的filter_中的非标准评估（NSE）和从MySQL中提取数据: 我想从一个dynamicfilter的SQL服务器拉一些数据。我用以下方式使用伟大的R包dplyr： #Create the filter filter_criteria = ~ column1 %in% some_vector #Connect to the database connection <- src_mysql(dbname <- "mydbname", user <- "myusername", password <- "mypwd", host <- "myhost") #Get data data <- connection %>% tbl("mytable") %>% #Specify which table filter_(.dots = filter_criteria) %>% #non standard evaluation filter collect() #Pull data 这段代码工作正常，但现在我想循环它在我的表的所有列，所以我想写的filter为： #Dynamic filter i […]

使用dplyr将函数应用于表的每一行？: 在使用plyr我经常发现使用adply来标量函数是非常有用的，我必须将它应用到每一行。例如 data(iris) library(plyr) head( adply(iris, 1, transform , Max.Len= max(Sepal.Length,Petal.Length)) ) Sepal.Length Sepal.Width Petal.Length Petal.Width Species Max.Len 1 5.1 3.5 1.4 0.2 setosa 5.1 2 4.9 3.0 1.4 0.2 setosa 4.9 3 4.7 3.2 1.3 0.2 setosa 4.7 4 4.6 3.1 1.5 0.2 setosa 4.6 5 5.0 3.6 1.4 0.2 setosa 5.0 6 5.4 […]

可以使用dplyr包进行有条件的变异吗？: 当突变是有条件的（取决于某些列值的值）时，可以使用mutate吗？这个例子有助于展示我的意思。 structure(list(a = c(1, 3, 4, 6, 3, 2, 5, 1), b = c(1, 3, 4, 2, 6, 7, 2, 6), c = c(6, 3, 6, 5, 3, 6, 5, 3), d = c(6, 2, 4, 5, 3, 7, 2, 6), e = c(1, 2, 4, 5, 6, 7, 6, 3), f = c(2, […]

如何通过do函数对某些列中不同数量的string进行分解: 当列的元素具有不同数量的string时，我有分割列值的问题。我可以用plyr做，例如： library(plyr) column <- c("jake", "jane jane","john john john") df <- data.frame(1:3, name = column) df$name <- as.character(df$name) df2 <- ldply(strsplit(df$name, " "), rbind) View(df2) 因此，我们有与给定元素中的最大刺入次数相关的列数的dataframe。当我尝试在dplyr中完成时，我使用了do函数： library(dplyr) df2 <- df %>% do(data.frame(strsplit(.$name, " "))) 但我得到一个错误： Error in data.frame("jake", c("jane", "jane"), c("john", "john", "john" : arguments imply differing number of rows: 1, 2, 3 […]

dplyr：如何在函数内使用group_by？: 我想在另一个函数中使用dplyr::group_by函数，但是我不知道如何将parameter passing给这个函数。有人可以提供一个工作的例子？ library(dplyr) data(iris) iris %.% group_by(Species) %.% summarise(n = n()) # ## Source: local data frame [3 x 2] ## Species n ## 1 virginica 50 ## 2 versicolor 50 ## 3 setosa 50 mytable0 <- function(x, …) x %.% group_by(…) %.% summarise(n = n()) mytable0(iris, "Species") # OK ## Source: local data […]

dplyr中的标准评估：sumrise_以variablesforms给出的string: 我想在summarise引用一个未知的列名。 dplyr 0.3引入的标准评估函数允许使用variables引用列名，但是当您在summarise调用base R函数时，这似乎不起作用。 library(dplyr) key <- "v3" val <- "v2" drp <- "v1" df <- data_frame(v1 = 1:5, v2 = 6:10, v3 = c(rep("A", 3), rep("B", 2))) DF如下所示： > df Source: local data frame [5 x 3] v1 v2 v3 1 1 6 A 2 2 7 A 3 3 8 A 4 4 […]