Tag: 数据框

在R中快速读取非常大的表格作为数据框

我有非常大的表(3000万行),我想在R中加载一个数据read.table()有很多方便的function,但是似乎有很多逻辑在执行,会慢事情倒了。 在我的情况下,我假设我知道列的types提前,该表不包含任何列标题或行名称,并没有任何病态字符,我不必担心。 我知道使用scan()作为列表读取表格可能会很快,例如: datalist <- scan('myfile',sep='\t',list(url='',popularity=0,mintime=0,maxtime=0))) 但是,我的一些尝试将其转换为dataframe似乎将上述性能降低了6倍: df <- as.data.frame(scan('myfile',sep='\t',list(url='',popularity=0,mintime=0,maxtime=0)))) 有没有更好的方法来做到这一点? 或者可能完全不同的方法来解决这个问题?

如何按列sorting数据框?

我想sorting一个data.frame多列。 例如,在下面的data.frame中,我想按列z (降序)然后按列b (升序)sorting: dd <- data.frame(b = factor(c("Hi", "Med", "Hi", "Low"), levels = c("Low", "Med", "Hi"), ordered = TRUE), x = c("A", "D", "A", "C"), y = c(8, 3, 9, 9), z = c(1, 1, 1, 2)) dd bxyz 1 Hi A 8 1 2 Med D 3 1 3 Hi A 9 1 […]

如何join(合并)数据框架(内部,外部,左,右)?

给定两个dataframe: df1 = data.frame(CustomerId = c(1:6), Product = c(rep("Toaster", 3), rep("Radio", 3))) df2 = data.frame(CustomerId = c(2, 4, 6), State = c(rep("Alabama", 2), rep("Ohio", 1))) df1 # CustomerId Product # 1 Toaster # 2 Toaster # 3 Toaster # 4 Radio # 5 Radio # 6 Radio df2 # CustomerId State # 2 Alabama # […]