如何在python中实现一个好的__hash__函数

当实现一个具有多个属性的类(如下面的玩具示例)时,处理散列的最佳方法是什么?

我猜__eq____hash__应该是一致的,但如何实现一个合适的散列函数,能够处理所有的属性?

 class AClass: def __init__(self): self.a = None self.b = None def __eq__(self, other): return other and self.a == other.a and self.b == other.b def __ne__(self, other): return not self.__eq__(other) def __hash__(self): return hash((self.a, self.b)) 

我在这个问题上读到元组是可散列的,所以我想知道是否像上面的例子是明智的。 是吗?

__hash__应该为相等的对象返回相同的值。 它也不应该改变对象的生命周期; 一般你只能实现它的不可变对象。

一个简单的实现将只是return 0 。 这总是正确的,但performance不佳。

你的解决scheme,返回一个属性元组的散列是好的。 但是请注意,您不需要列出元组中__eq__中比较的所有属性。 如果一些财产对不平等的物品通常具有相同的价值,就把它排除在外。 不要让哈希计算比它需要更昂贵。

编辑:我会build议不要使用异或混合散列一般。 当两个不同的属性具有相同的值时,它们将具有相同的散列值,并且xor这些将相互取消。 元组使用更复杂的计算来混合哈希,参见tupleobject.c tuplehash

写作是危险的

 def __eq__(self, other): return other and self.a == other.a and self.b == other.b 

因为如果你的rhs(即other )对象的计算结果是布尔型的,那么它永远不会与任何东西相等!

另外,你可能要仔细检查other属于AClass的类或子类。 如果没有,你会得到exceptionAttributeError或误报(如果其他类碰巧具有相同值的相同命名的属性)。 所以我build议将__eq__重写为:

 def __eq__(self, other): return isinstance(other, self.__class__) and self.a == other.a and self.b == other.b 

如果有机会,你想要一个非常灵活的比较,只要属性匹配的名称匹配跨不相关的类,你仍然希望至less避免AttributeError并检查other没有任何额外的属性。 你怎么做取决于情况(因为没有标准的方法来查找对象的所有属性)。

object.__hash__(self)文档object.__hash__(self)

唯一需要的属性是比较相等的对象具有相同的散列值; build议以某种方式混合在一起(例如使用排他或)散列值的对象的组成部分,也发挥作用的比较对象的一部分。

 def __hash__(self): return hash(self.a) ^ hash(self.b)