大pandas：特殊的性能下降后，在dropna重新命名

我已经把这个报告为pandas问题的一个问题。同时我在这里张贴这个希望能节省时间，以防遇到类似的问题。

在分析一个需要优化的进程时，我发现重命名不在位的列会提高x120的性能（执行时间）。分析表明这与垃圾收集有关（见下文）。

此外，通过避免使用dropna方法来恢复预期的性能。

下面的简短例子演示了一个因素x12：

import pandas as pd import numpy as np

就地=真

 %%timeit np.random.seed(0) r,c = (7,3) t = np.random.rand(r) df1 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t) indx = np.random.choice(range(r),r/3, replace=False) t[indx] = np.random.rand(len(indx)) df2 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t) df = (df1-df2).dropna() ## inplace rename: df.rename(columns={col:'d{}'.format(col) for col in df.columns}, inplace=True)

100个循环，每个循环最好3：15.6 ms

%%prun第一个输出行：

ncalls tottime percall cumtime percall文件名：lineno（函数）
 1 0.018 0.018 0.018 0.018 {gc.collect} 

就地=假

 %%timeit np.random.seed(0) r,c = (7,3) t = np.random.rand(r) df1 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t) indx = np.random.choice(range(r),r/3, replace=False) t[indx] = np.random.rand(len(indx)) df2 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t) df = (df1-df2).dropna() ## avoid inplace: df = df.rename(columns={col:'d{}'.format(col) for col in df.columns})

1000个循环，最好是3：每个循环1.24 ms

避免dropna

预期的性能可以通过避免使用dropna方法来恢复：

 %%timeit np.random.seed(0) r,c = (7,3) t = np.random.rand(r) df1 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t) indx = np.random.choice(range(r),r/3, replace=False) t[indx] = np.random.rand(len(indx)) df2 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t) #no dropna: df = (df1-df2)#.dropna() ## inplace rename: df.rename(columns={col:'d{}'.format(col) for col in df.columns}, inplace=True)

1000个循环，每个循环最好为3：865μs

 %%timeit np.random.seed(0) r,c = (7,3) t = np.random.rand(r) df1 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t) indx = np.random.choice(range(r),r/3, replace=False) t[indx] = np.random.rand(len(indx)) df2 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t) ## no dropna df = (df1-df2)#.dropna() ## avoid inplace: df = df.rename(columns={col:'d{}'.format(col) for col in df.columns})

1000个循环，最好是每个循环3：902μs

这是github的解释副本。

不能保证 inplace操作实际上更快。通常它们实际上是在副本上工作的相同操作，但顶层引用被重新分配。

这种情况下的性能差异的原因如下。

(df1-df2).dropna()调用创builddataframe的一个片段。当你应用一个新的操作时，这会触发一个SettingWithCopy检查，因为它可能是一个副本（但通常不是）。

此检查必须执行垃圾回收来清除一些caching引用，以查看它是否是副本。不幸的是Python语法使得这个不可避免。

通过简单地制作一个副本，你不可能发生这种情况。

 df = (df1-df2).dropna().copy()

其次是一个inplace操作将像以前一样高性能。

我个人的看法：我从来不使用就地操作。语法很难阅读，并没有提供任何优势。

大pandas：特殊的性能下降后，在dropna重新命名

就地=真

就地=假

避免dropna

Python中a – = b和a = a – b之间的区别

删除包含特定string的文本文件中的行

如何使用合并sortingalgorithm就地sorting？

更新java映射条目

如何删除多个文件的尾部空格？

就地基数sorting

如何将制表符转换为目录的每个文件中的空格？

Numpy修改数组的地方？