在Python中提高超大字典的性能

我发现，如果我在开头初始化一个空字典，然后在for循环中添加元素到字典中（大约110,000个键，每个键的值是一个列表，循环中也增加），速度降低为for循环去。

我怀疑问题是，字典在初始化时并不知道密钥的数量，而且它并没有做一些非常聪明的事情，所以也许存储冲突变得相当频繁，并且速度变慢了。

如果我知道键的数量，确切地说是那些键，是否有任何方式在Python中使字典（或哈希表）更有效地工作？我隐约记得，如果你知道密钥，你可以巧妙地devise哈希函数（完美哈希？），并预先分配空间。

如果我知道键的数量，确切地说是那些键，是否有任何方式在Python中使字典（或哈希表）更有效地工作？我隐约记得，如果你知道密钥，你可以巧妙地devise哈希函数（完美哈希？），并预先分配空间。

Python并没有公开一个预先大小的选项来加速字典的“成长阶段”，也没有提供任何直接控制字典中“放置”的选项。

也就是说，如果提前知道密钥，可以将它们存储在一个集合中，并使用dict.fromkeys（）从集合中构build字典。该类方法已经过优化，可根据设置的大小预先设置字典的大小，并且可以在不对__hash __（）进行任何新的调用的情况下填充字典：

>>> keys = {'red', 'green', 'blue', 'yellow', 'orange', 'pink', 'black'} >>> d = dict.fromkeys(keys) # dict is pre-sized to 32 empty slots

如果减less碰撞是您的目标，您可以对字典中的插入顺序进行实验，以最大限度地减less堆积。（在Knuth的TAOCP中看看布伦特对algorithmD的变化，以了解这是如何完成的）。

通过为词典（比如这个词典）设置一个纯Python模型，可以计算替代插入顺序的加权平均探测次数。例如，插入dict.fromkeys([11100, 22200, 44400, 33300])平均每个查找1.75个探针。这比dict.fromkeys([33300, 22200, 11100, 44400])查找dict.fromkeys([33300, 22200, 11100, 44400]) 2.25次平均探测次数。

另一个“诀窍”是通过在没有添加新密钥的情况下增加其大小来增加其大小，从而增加完全填充的字典中的空白：

  d = dict.fromkeys(['red', 'green', 'blue', 'yellow', 'orange']) d.update(dict(d)) # This makes room for additional keys # and makes the set collision-free.

最后，您可以为您的密钥引入您自己的自定义__hash __（），以消除所有冲突（也许使用完美的哈希生成器，如gperf ）。

在Python中提高超大字典的性能

从Python字典对象中提取键值对的子集？

如何复制字典并只编辑副本

一个永远不会被任何东西匹配的正则expression式

Python中的dict对象联合

通过数字索引访问Dictionary.Keys键

Swift字典获取价值的关键

如何结合两个词典没有循环？

在Python中保存一个字典到一个文件（替代pickle）？

StringDictionary vs Dictionary <string，string>

如何将默认值设置为Python中的字典对象的所有键？