selectR中每列唯一值的第一行

从这样的数据框

test <- data.frame('id'= rep(1:5,2), 'string'= LETTERS[1:10]) test <- test[order(test$id), ] rownames(test) <- 1:10 > test id string 1 1 A 2 1 F 3 2 B 4 2 G 5 3 C 6 3 H 7 4 D 8 4 I 9 5 E 10 5 J 

我想创build一个新的每个ID /string对的第一次出现。 如果sqldf在其中接受R代码,查询可能看起来像这样:

 res <- sqldf("select id, min(rownames(test)), string from test group by id, string") > res id string 1 1 A 3 2 B 5 3 C 7 4 D 9 5 E 

有没有创build一个新的列像解决scheme

 test$row <- rownames(test) 

和最小(行)运行相同的sqldf查询?

你可以使用duplicated来做这个很快。

 test[!duplicated(test$id),] 

基准,为速度怪胎:

 ju <- function() test[!duplicated(test$id),] gs1 <- function() do.call(rbind, lapply(split(test, test$id), head, 1)) gs2 <- function() do.call(rbind, lapply(split(test, test$id), `[`, 1, )) jply <- function() ddply(test,.(id),function(x) head(x,1)) jdt <- function() { testd <- as.data.table(test) setkey(testd,id) # Initial solution (slow) # testd[,lapply(.SD,function(x) head(x,1)),by = key(testd)] # Faster options : testd[!duplicated(id)] # (1) # testd[, .SD[1L], by=key(testd)] # (2) # testd[J(unique(id)),mult="first"] # (3) # testd[ testd[,.I[1L],by=id] ] # (4) needs v1.8.3. Allows 2nd, 3rd etc } library(plyr) library(data.table) library(rbenchmark) # sample data set.seed(21) test <- data.frame(id=sample(1e3, 1e5, TRUE), string=sample(LETTERS, 1e5, TRUE)) test <- test[order(test$id), ] benchmark(ju(), gs1(), gs2(), jply(), jdt(), replications=5, order="relative")[,1:6] # test replications elapsed relative user.self sys.self # 1 ju() 5 0.03 1.000 0.03 0.00 # 5 jdt() 5 0.03 1.000 0.03 0.00 # 3 gs2() 5 3.49 116.333 2.87 0.58 # 2 gs1() 5 3.58 119.333 3.00 0.58 # 4 jply() 5 3.69 123.000 3.11 0.51 

让我们再试一次,但只有第一热的竞争者,更多的数据和更多的复制。

 set.seed(21) test <- data.frame(id=sample(1e4, 1e6, TRUE), string=sample(LETTERS, 1e6, TRUE)) test <- test[order(test$id), ] benchmark(ju(), jdt(), order="relative")[,1:6] # test replications elapsed relative user.self sys.self # 1 ju() 100 5.48 1.000 4.44 1.00 # 2 jdt() 100 6.92 1.263 5.70 1.15 

关于什么

 DT <- data.table(test) setkey(DT, id) DT[J(unique(id)), mult = "first"] 

编辑

data.tables也有一个唯一的方法, data.tables通过键返回第一行

 jdtu <- function() unique(DT) 

我认为,如果您在基准test之外订购test ,那么您可以从基准testing中除去setkeydata.table转换(因为setkey基本上按IDsorting,与order相同)。

 set.seed(21) test <- data.frame(id=sample(1e3, 1e5, TRUE), string=sample(LETTERS, 1e5, TRUE)) test <- test[order(test$id), ] DT <- data.table(DT, key = 'id') ju <- function() test[!duplicated(test$id),] jdt <- function() DT[J(unique(id)),mult = 'first'] library(rbenchmark) benchmark(ju(), jdt(), replications = 5) ## test replications elapsed relative user.self sys.self ## 2 jdt() 5 0.01 1 0.02 0 ## 1 ju() 5 0.05 5 0.05 0 

并有更多的数据

**用独特的方法编辑**

 set.seed(21) test <- data.frame(id=sample(1e4, 1e6, TRUE), string=sample(LETTERS, 1e6, TRUE)) test <- test[order(test$id), ] DT <- data.table(test, key = 'id') test replications elapsed relative user.self sys.self 2 jdt() 5 0.09 2.25 0.09 0.00 3 jdtu() 5 0.04 1.00 0.05 0.00 1 ju() 5 0.22 5.50 0.19 0.03 

这里独特的方法是最快的。

一个简单的ddply选项:

 ddply(test,.(id),function(x) head(x,1)) 

如果速度是一个问题,那么data.table可以采取类似的方法:

 testd <- data.table(test) setkey(testd,id) testd[,lapply(.SD,function(x) head(x,1)),by = key(testd)] 

(1)SQLite有一个内置的rowid伪列,所以这个工作:

 sqldf("select min(rowid) rowid, id, string from test group by id") 

赠送:

  rowid id string 1 1 1 A 2 3 2 B 3 5 3 C 4 7 4 D 5 9 5 E 

(2) sqldf本身也有一个row.names=参数:

 sqldf("select min(cast(row_names as real)) row_names, id, string from test group by id", row.names = TRUE) 

赠送:

  id string 1 1 A 3 2 B 5 3 C 7 4 D 9 5 E 

(3)混合上述两个要素的第三个select可能会更好:

 sqldf("select min(rowid) row_names, id, string from test group by id", row.names = TRUE) 

赠送:

  id string 1 1 A 3 2 B 5 3 C 7 4 D 9 5 E 

请注意,所有这三个都依赖SQL的SQLite扩展,其中使用minmax保证导致从同一行中select其他列。 (在其他基于SQL的数据库中,可能无法保证。)

现在,为dplyr ,添加一个独特的计数器。

 dfx <- df %>% group_by(aa, bb) %>% summarise(first=head(value,1), count=n_distinct(value)) 

你创build组,他们在组内总结。 如果数据是数字,您可以使用:
first(value) [也有last(value) ]代替head(value, 1)

请参阅: http : //cran.rstudio.com/web/packages/dplyr/vignettes/introduction.html

充分:

 > df Source: local data frame [16 x 3] aa bb value 1 1 1 GUT 2 1 1 PER 3 1 2 SUT 4 1 2 GUT 5 1 3 SUT 6 1 3 GUT 7 1 3 PER 8 2 1 221 9 2 1 224 10 2 1 239 11 2 2 217 12 2 2 221 13 2 2 224 14 3 1 GUT 15 3 1 HUL 16 3 1 GUT library(dplyr) dfx <- df %>% group_by(aa, bb) %>% summarise(first=head(value,1), count=n_distinct(value)) > dfx Source: local data frame [6 x 4] Groups: aa aa bb first count 1 1 1 GUT 2 2 1 2 SUT 2 3 1 3 SUT 3 4 2 1 221 3 5 2 2 217 3 6 3 1 GUT 2 

基本的R选项是split()lapply()do.call()成语:

 > do.call(rbind, lapply(split(test, test$id), head, 1)) id string 1 1 A 2 2 B 3 3 C 4 4 D 5 5 E 

更直接的select是lapply()函数:

 > do.call(rbind, lapply(split(test, test$id), `[`, 1, )) id string 1 1 A 2 2 B 3 3 C 4 4 D 5 5 E 

lapply()调用结束时的逗号空间1, )必不可less的,因为这相当于调用[1, ]来select第一行和所有列。

 test_subset <- test[unique(test$id),] 

只要这一行就会生成你想要的子集。

Interesting Posts