Tag: 相似度

string相似度分数/散列

有没有一种方法来计算一个string的一般“相似性分数”? 在某种程度上,我不是比较两个string在一起,而是我得到一些数字(哈希)为每个string,可以稍后告诉我,两个string是或不相似的。 两个相似的string应该有相似的(接近)散列。 让我们以这些string和分数为例: Hello world 1000 Hello world! 1010 Hello earth 1125 Foo bar 3250 FooBarbar 3750 Foo Bar! 3300 Foo world! 2350 你可以看到Hello world! 和你好世界是相似的,他们的分数是相互接近的。 这样,find给定string的最相似的string将通过从其他分数中减去给定的string得分,然后对它们的绝对值进行sorting来完成。

一个更好的相似性sortingalgorithm的变长string

我正在寻找一个string相似度algorithm,可变长度string比通常build议(levenshtein距离,soundex等)产生更好的结果。 例如, 给定stringA:“Robert”, 然后串B:“艾米·罗伯逊” 会比比赛更好 stringC:“理查德” 另外,优选地,该algorithm应该是语言不可知的(也可以用非英语的语言)。

在lucene中获得两个文档之间的余弦相似度

我已经在Lucene中build立了一个索引。 我希望不指定查询,只是为了获得索引中两个文档之间的分数(余弦相似度或另一个距离?)。 例如,我从以前打开的索引阅读器IR与ID 2和4的文件。Document d1 = ir.document(2); 文件d2 = ir.document(4); 我怎样才能得到这两个文件之间的余弦相似? 谢谢

如何计算给定2个string的距离相似度量?

我需要计算给定的2个string的距离相似性度量。 那我究竟是什么意思? 让我用例子来解释 真正的字眼: hospital 错误的词: haspita 现在我的目标是,我需要修改错误的单词来获得真实的单词。 在这个例子中,我需要修改2个字母。 那么百分比是多less? 我总是把真实的词汇的长度。 所以它变成2/8 = 25%,所以这2个stringDSM是75%。 我如何才能做到这一点,性能是一个关键的考虑因素?

如何计算两个句子的余弦相似度? – Python

从Python:tf-idf-cosine:查找文档相似度 ,可以使用tf-idf余弦计算文档相似度。 如果不导入外部库,是否有任何方法来计算2个string之间的余弦相似度? s1 = "This is a foo bar sentence ." s2 = "This sentence is similar to a foo bar sentence ." s3 = "What is this string ? Totally not related to the other two lines ." cosine_sim(s1, s2) # Should give high cosine similarity cosine_sim(s1, s3) # Shouldn't give high cosine […]