从数据框中提取特定的列

我有一个R数据框6列,我想创build一个新的数据框,只有三个列。

假设我的数据框是df ,并且我想提取列ABE ,这是我能弄清楚的唯一命令:

  data.frame(df$A,df$B,df$E) 

有没有更紧凑的方式来做到这一点?

就在这里。

 # data for reproducible example # (and to avoid confusion from trying to subset `stats::df`) df <- setNames(data.frame(as.list(1:5)), LETTERS[1:5]) # subset df[,c("A","B","E")] 

这是subset()函数的作用:

 > dat <- data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,7),E=c(8,8),F=c(9,9)) > subset(dat, select=c("A", "B")) AB 1 1 3 2 2 4 

有两个明显的select:Joshua Ulrich的df[,c("A","B","E")]

 df[,c(1,2,5)] 

如在

 > df <- data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,7),E=c(8,8),F=c(9,9)) > df ABCDEF 1 1 3 5 7 8 9 2 2 4 6 7 8 9 > df[,c(1,2,5)] ABE 1 1 3 8 2 2 4 8 > df[,c("A","B","E")] ABE 1 1 3 8 2 2 4 8 

使用dplyr包,如果您的data.frame被称为df1

 library(dplyr) df1 %>% select(A, B, E) 

这也可以写入没有%>%pipe道:

 select(df1, A, B, E) 

再次使用dplyr,其中df1是您的原始数据框:

 df2 <- subset(df1, select = c(1, 2, 5)) 

您还可以使用在Rdataframe上执行select的sqldf包,如下所示:

df1 < – sqldf(“从dfselectA,B,E”)

这给出了输出dataframedf1的列:A,B,E。

[和子集是不可替代的:

如果只select一列,则返回一个向量。

 df = data.frame(a="a",b="b") identical( df[,c("a")], subset(df,select="a") ) identical( df[,c("a","b")], subset(df,select=c("a","b")) ) 

仅出于某种原因

 df[, (names(df) %in% c("A","B","E"))] 

为我工作。 所有上述语法都产生了“未定义的列被选中”。