Tag: levenshtein distance

Jaro-Winkler和Levenshtein距离之间的区别?

我有一个用例,我需要对来自多个文件的数百万条logging进行模糊匹配。 我确定了两个algorithm: Jaro-Winkler和Levenshtein编辑距离。 当我开始探索这两者时,我无法理解两者之间的确切区别。 Levenshtein似乎给出了两个string之间的编辑数量,Jaro-Winkler给出了0.0到1.0之间的匹配分数。 我不明白这个algorithm。 因为我需要使用任何一种algorithm,所以我需要知道algorithm性能的确切区别。

Python中的string相似性度量

我想find两个string之间的string相似性。 这个页面有一些例子。 Python有一个Levenshteinalgorithm的实现 。 有没有更好的algorithm,(希望是一个Python库),在这些限制下。 我想做string之间的模糊匹配。 例如匹配('你好,你所有的人','你好,所有你peopl')应该返回True 假阴性是可以接受的,假阳性,除极less数情况外都不是。 这是在非实时设置下完成的,因此速度不是很关心。 [编辑]我正在比较多个string。 除了Levenshtein距离(或Levenshtein比率)之外,对于我的情况会是更好的algorithm吗?

什么algorithm在拼写检查器中给出build议?

实施拼写检查器时,通常使用哪种algorithm,并附带单词build议? 起初,我认为检查每个新input的单词(如果没有在字典中find的话)与字典中每个单词的Levenshtein距离相比 ,并返回最上面的结果是有意义的。 然而,这似乎是非常低效的,不得不反复评估整个字典。 这通常如何完成?

使用优化的Levenshteinalgorithm寻找最近的邻居

我最近发布了一个关于优化algorithm来计算Levenshtein距离的问题,并且这些答复将我引向维基百科有关Levenshtein距离的文章。 文章提到,如果在最大距离上有一个边界k ,那么给定的查询可能会产生一个结果,那么运行时间可以从O(mn)减less到O(kn) , m和n是string。 我查了algorithm,但我真的不知道如何实现它。 我希望在这里得到一些线索。 “可能的改进”下的优化是#4。 令我困惑的部分是我们只需要计算以主对angular线(主对angular线被定义为坐标(i,i))为中心的宽度为2k + 1的对angular线条带。 如果有人能提供一些帮助/见解,我会非常感激。 如果需要的话,我可以在这里发表完整的algorithm描述作为答案。

如何在mysql中添加levenshtein函数?

我得到了代表levenshtein距离的MySQL表单“http://kristiannissen.wordpress.com/2010/07/08/mysql-levenshtein/”但是,如何在mysql中添加该函数? 我正在使用XAMPP,我需要它在PHPsearch。

实现MySQL /模糊searchLevenshtein距离?

我希望能够按如下方式search一个表格,以获得1个方差内的所有信息。 数据: 奥布莱恩 Smithe 杜兰 Smuth 皇 Smoth 冈瑟 Smiht 我已经考虑使用Levenshtein距离没有人知道如何实现这一点呢?

Levenshtein距离VBA

我有Excel数据表,我想要Levenshtein距离。 我已经尝试导出为文本,从脚本(PHP)读入,运行Levenshtein(计算Levenshtein距离),将其保存到Excel中再次。 但是我正在寻找一种方法来编程计算VBA中的Levenshtein距离。 我怎么会这样做呢?

如何计算给定2个string的距离相似度量?

我需要计算给定的2个string的距离相似性度量。 那我究竟是什么意思? 让我用例子来解释 真正的字眼: hospital 错误的词: haspita 现在我的目标是,我需要修改错误的单词来获得真实的单词。 在这个例子中,我需要修改2个字母。 那么百分比是多less? 我总是把真实的词汇的长度。 所以它变成2/8 = 25%,所以这2个stringDSM是75%。 我如何才能做到这一点,性能是一个关键的考虑因素?

获得最接近的string匹配

我需要一种方法将多个string与testingstring进行比较,并返回与其非常相似的string: TEST STRING: THE BROWN FOX JUMPED OVER THE RED COW CHOICE A : THE RED COW JUMPED OVER THE GREEN CHICKEN CHOICE B : THE RED COW JUMPED OVER THE RED COW CHOICE C : THE RED FOX JUMPED OVER THE BROWN COW (如果我正确地做了这个)“TEST STRING”最接近的string应该是“CHOICE C”。 什么是最简单的方法来做到这一点? 我计划将其实现为包括VB.net,Lua和JavaScript在内的多种语言。 在这一点上,伪代码是可以接受的。 如果你能提供一个特定语言的例子,这也是赞赏!