Tag: bloom filter

Python中的现代高性能布隆filter?

我正在寻找一个生产质量布隆filter实现在Python中处理相当大数量的项目(比如100M到1B的项目,误报率为0.01%)。 Pybloom是一种select,但它似乎正在显示其年龄,因为它定期抛出Python 2.5上的DeprecationWarning错误。 乔·格雷戈里奥也有一个实现 。 要求是快速查找性能和稳定性。 我也打开创buildPython接口到特别好的c / c ++实现,甚至是Jython,如果有一个好的Java实现。 缺乏这一点,任何build议就位arrays/位vector表示,可以处理〜16E9位?

布卢姆filter的对面?

我试图优化一个基本上运行数百万个testing的软件。 这些testing生成的方式可能会有一些重复。 当然,如果我可以有效地避免,我不想花时间运行已经运行的testing。 所以,我正在考虑使用Bloomfilter来存储已经运行的testing。 但是布卢姆filter对我来说是不安全的一方。 它给出了误报。 也就是说,它可能会报告我已经跑了一个我没有的testing。 虽然在我正在处理的情况下这可能是可以接受的,但是我想知道是否有相当于布卢姆filter,但却犯了相反的错误,也就是只给出了错误的否定。 我没有任何运气,通过文学浏览。

使用bloom滤镜有什么好处?

我正在阅读bloom filters,他们看起来很傻。 任何你可以使用布隆filter来完成的事情,你可以用更less的空间,更高效地完成,使用单个散列函数而不是多个,或者看起来就是这样。 为什么要使用布隆filter,它如何有用?