Tag: jaro winkler

Jaro-Winkler和Levenshtein距离之间的区别?

我有一个用例,我需要对来自多个文件的数百万条logging进行模糊匹配。 我确定了两个algorithm: Jaro-Winkler和Levenshtein编辑距离。 当我开始探索这两者时,我无法理解两者之间的确切区别。 Levenshtein似乎给出了两个string之间的编辑数量,Jaro-Winkler给出了0.0到1.0之间的匹配分数。 我不明白这个algorithm。 因为我需要使用任何一种algorithm,所以我需要知道algorithm性能的确切区别。