Tag: dataframe

在原始数据中添加一列组的手段

我想在R data.frame添加一列基于因子列的data.frame 。 喜欢这个: df1 <- data.frame(X = rep(x = LETTERS[1:2], each = 3), Y = 1:6) df2 <- aggregate(data = df1, Y ~ X, FUN = mean) df3 <- merge(x = df1, y = df2, by = "X", suffixes = c(".Old",".New")) df3 # X Y.Old Y.New # 1 A 1 2 # 2 A […]

计算数据子集的统计信息

这是我的数据的一个小的可重复的例子: > mydata <- structure(list(subject = c(1, 1, 1, 2, 2, 2), time = c(0, 1, 2, 0, 1, 2), measure = c(10, 12, 8, 7, 0, 0)), .Names = c("subject", "time", "measure"), row.names = c(NA, -6L), class = "data.frame") > mydata subject time measure 1 0 10 1 1 12 1 2 8 2 […]

将dataframestring列拆分为多个不同的列

我试图完成的是将一个列分成多个列。 我宁愿第一列包含“F”,第二列“美国”,第三“CA6”或“DL”,第四个是“Z13”或“U13”等。我整个df遵循相同的模式X.XX.XXXX.XXX或X.XX.XXX.XXX或X.XX.XX.XXX我知道第三列是我的问题在于哪里,因为长度不同。 我过去只使用了substr,我可以在这里使用一些if语句,但是想学习如何使用stringr包和POSIX来做到这一点(除非有更好的select)。 先谢谢你。 这是我的df: c("F.US.CLE.V13", "F.US.CA6.U13", "F.US.CA6.U13", "F.US.CA6.U13", "F.US.CA6.U13", "F.US.CA6.U13", "F.US.CA6.U13", "F.US.CA6.U13", "F.US.DL.U13", "F.US.DL.U13", "F.US.DL.U13", "F.US.DL.Z13", "F.US.DL.Z13" )

如何将数据框列转换为数字types?

如何将数据框列转换为数字types?

查找重复行的索引

R中复制的函数执行重复行search。 如果我们想删除重复项,我们只需要编写df[!duplicated(df),] ,重复项将从数据框中删除。 但是如何find重复数据的索引呢? 如果duplicated在某一行返回TRUE,则意味着这是dataframe中这样一行的第二次发生,并且其索引可以很容易地获得。 如何获得该行第一次出现的索引? 换句话说,一个与重复行相同的索引? 我可以在data.frame上做一个循环,但是我认为在这个问题上有一个更优雅的答案。

在列中分隔分隔string并插入为新行

我有一个数据框如下: +—–+——-+ | V1 | V2 | +—–+——-+ | 1 | a,b,c | | 2 | a,c | | 3 | b,d | | 4 | e,f | | . | . | +—–+——-+ 每个字母都是用逗号分隔的字符。 我想在每个逗号分割V2,并插入拆分string作为新的行。 例如,期望的输出将是: +—-+—-+ | V1 | V2 | +—-+—-+ | 1 | a | | 1 | b | | […]

在数据框中随机行示例

我正在努力寻找合适的函数来返回指定数量的随机选取的行,而不是从R语言的数据框中进行replace? 谁能帮我吗?

如何使用“OR”将多个条件组合到一个数据框中?

我在R有一个data.frame我想在两个不同的列上尝试两个不同的条件,但我希望这些条件是包容性的。 因此,我想用“或”来结合条件。 当我想使用“AND”条件时,我已经使用了以下语法,并取得了很大的成功。 my.data.frame <- data[(data$V1 > 2) & (data$V2 < 4), ] 但是我不知道如何在上面使用'OR'。

成对重复从数据框中删除

这似乎是一个简单的问题,但我似乎无法弄清楚。 我想从数据框(DF)删除重复如果两列具有相同的值,即使这些值是相反的顺序 。 我的意思是说,你有以下的数据框架: a <- c(rep("A", 3), rep("B", 3), rep("C",2)) b <- c('A','B','B','C','A','A','B','B') df <-data.frame(a,b) ab 1 AA 2 AB 3 AB 4 BC 5 BA 6 BA 7 CB 8 CB 如果我现在删除重复,我得到以下数据框架: df[duplicated(df),] ab 3 AB 6 BA 8 CB 但是,由于“A”,“B”与“B”,“A”相同,我也想删除该数据框中的第6行。 我怎样才能自动做到这一点? 理想情况下,我可以指定哪两列进行比较,因为dataframe可能有不同的列,可能会相当大。 谢谢!

使用python del从pandas DataFrame中删除列

当删除DataFrame中的一列时,我使用: del df['column_name'] 这工作很好。 为什么我不能使用: del df.column_name 正如你可以访问列/系列作为df.column_name ,我期望这个工作。