Tag: dataframe

Pandas使用什么规则来生成视图和副本？: 我对Pandas在决定从数据框中select原始数据框的副本或原始视图时使用的规则感到困惑。如果我有，例如， df = pd.DataFrame(np.random.randn(8,8), columns=list('ABCDEFGH'), index=range(1,9)) 我明白， query返回一个副本，以便类似的东西 foo = df.query('2 < index <= 5') foo.loc[:,'E'] = 40 将不会对原始dataframedf 。我也明白，标量或命名切片返回一个视图，以便这些分配，如 df.iloc[3] = 70 要么 df.ix[1,'B':'E'] = 222 会改变df 。但是当涉及到更复杂的情况时，我却迷失了方向。例如， df[df.C <= df.B] = 7654321 改变df ，但是 df[df.C <= df.B].ix[:,'B':'E'] 才不是。有一个简单的规则，pandas使用，我只是失踪？这些具体情况是怎么回事？特别是，如何在满足特定查询的数据框中更改所有值（或值的子集）（如我在上面的示例中试图做的那样）？注：这与这个问题不一样，我已经阅读了文档，但没有受到启发。我也读过了关于这个主题的“相关”的问题，但是我仍然错过了pandas正在使用的简单规则，以及如何将它应用到 – 例如 – 修改值（或值的子集）在满足特定查询的数据框中。

合并不相等的数据框并用0replace缺失的行: 我有两个data.frames，一个只有字符和另一个字符和值。 df1 = data.frame(x=c('a', 'b', 'c', 'd', 'e')) df2 = data.frame(x=c('a', 'b', 'c'),y = c(0,1,0)) merge(df1, df2) xy 1 a 0 2 b 1 3 c 0 我想合并df1和df2。字符a，b和c合并得很好，也有0,1,0但d和e没有任何内容。我也想要d和e在合并表中，与0 0条件。因此，对于df2 data.frame中的每个缺失行，必须将0放在df1表中，如： xy 1 a 0 2 b 1 3 c 0 4 d 0 5 e 0

有条件地replacedata.frame中的值: 我想了解如何有条件地取代数据框中的值而不使用循环。我的数据框架结构如下： > df ab est 1 11.77000 2 0 2 10.90000 3 0 3 10.32000 2 0 4 10.96000 0 0 5 9.90600 0 0 6 10.70000 0 0 7 11.43000 1 0 8 11.41000 2 0 9 10.48512 4 0 10 11.19000 0 0 和输出是这样的： structure(list(a = c(11.77, 10.9, 10.32, 10.96, 9.906, 10.7, […]

pandas可以自动识别date吗？: 今天，我感到非常惊讶的是，从数据文件（例如）读取数据时，pandas能够识别值的types： df = pandas.read_csv('test.dat', delimiter=r"\s+", names=['col1','col2','col3']) 例如，可以通过这种方式检查： for i, r in df.iterrows(): print type(r['col1']), type(r['col2']), type(r['col3']) 在特定的整数，浮游物和string被正确识别。不过，我有一个具有以下格式的date的列： 2013-6-4 。这些date被认为是string（而不是Pythondate对象）。有什么方法可以将“pandas”学习到认可的date？

按行快速vector化data.frames列表的合并: 大多数关于在SO上列表中合并data.frame的问题并不完全涉及到我想要在这里得到的东西，而是随意地certificate我错了。我有一个data.frames的列表。我想“行”到另一个data.frame逐行。实质上，所有第一行形成一个dataframe，第二行第二个dataframe，等等。结果将是一个长度与我的原始data.frame（s）行数相同的列表。到目前为止，data.frames的维度是相同的。这里有一些数据要玩。 sample.list <- list(data.frame(x = sample(1:100, 10), y = sample(1:100, 10), capt = sample(0:1, 10, replace = TRUE)), data.frame(x = sample(1:100, 10), y = sample(1:100, 10), capt = sample(0:1, 10, replace = TRUE)), data.frame(x = sample(1:100, 10), y = sample(1:100, 10), capt = sample(0:1, 10, replace = TRUE)), data.frame(x […]

创build一个列是列表的data.frame: 我知道如何添加列表列： > df <- data.frame(a=1:3) > df$b <- list(1:1, 1:2, 1:3) > df ab 1 1 1 2 2 1, 2 3 3 1, 2, 3 这工作，但不是： > df <- data.frame(a=1:3, b=list(1:1, 1:2, 1:3)) Error in data.frame(1L, 1:2, 1:3, check.names = FALSE, stringsAsFactors = TRUE) : arguments imply differing number of rows: 1, 2, 3 […]

在数据框的选定列中包含NA（缺失）值的行的子集: 我们有一个CSV文件的数据框。 dataframeDF具有包含观测值的列和包含已经进行测量的date的列（ VaR2 ）。如果未loggingdate，则CSV文件包含缺失数据的值NA 。 Var1 Var2 10 2010/01/01 20 NA 30 2010/03/01 我们希望使用subset命令定义一个新的dataframenew_DF ，使得它只包含来自列（ VaR2 ）的具有NA'值的行。在给出的例子中，只有第2行将被包含在新的DF 。命令 new_DF<-subset(DF,DF$Var2=="NA") 不起作用，结果数据框没有行条目。如果在原始的CSV文件中NA值与NULL交换，则相同的命令会产生所需的结果： new_DF<-subset(DF,DF$Var2=="NULL") 。如何获得这个方法的工作，如果string的价值NA提供原始CSV文件？

R中的数据框和列表有什么区别？: R 数据框和列表有什么区别？哪一个应该使用？哪个更容易循环？确切的问题：我必须先存储3个string元素，如“a”，“b”，“c”。后来每个这些，我需要追加3个更多的元素; 例如“a”我必须添加“a1”，“a2”，“a3”。后来我必须使用嵌套for循环来访问这些元素。所以我很困惑使用数据框或列表或其他数据types，我可以先存储，然后追加（每列的种类）？目前我收到错误，如“要更换的项目数不是更换长度的倍数”

优雅索引到向量/matrix的结尾: 在R中是否可以说 – 我想要从位置i到vector/matrix的末尾的所有索引？说我想从第三列开始的子matrix。我目前只知道这种方式： A = matrix(rep(1:8, each = 5), nrow = 5) # just generate some example matrix… A[,3:dim(A)[2]] # get submatrix from 3rd column onwards 但是，我真的需要写那个丑陋的dim(A)[2]吗？怎么说“从第三栏开始”没有优雅的方式？像A[,3:] ？（或A[,3:…] ）？

报告data.frame中缺失值的优雅方式: 这是我写的一段代码，用于从数据框中报告具有缺失值的variables。我试图想到一个更优雅的方式来做到这一点，可能会返回一个data.frame，但我卡住了： for (Var in names(airquality)) { missing <- sum(is.na(airquality[,Var])) if (missing > 0) { print(c(Var,missing)) } } 编辑：我正在处理与数十到数百个variables的data.frames，所以关键是我们只报告缺less值的variables。