Tag: 相似度

string相似度分数/散列: 有没有一种方法来计算一个string的一般“相似性分数”？在某种程度上，我不是比较两个string在一起，而是我得到一些数字（哈希）为每个string，可以稍后告诉我，两个string是或不相似的。两个相似的string应该有相似的（接近）散列。让我们以这些string和分数为例： Hello world 1000 Hello world! 1010 Hello earth 1125 Foo bar 3250 FooBarbar 3750 Foo Bar! 3300 Foo world! 2350 你可以看到Hello world！和你好世界是相似的，他们的分数是相互接近的。这样，find给定string的最相似的string将通过从其他分数中减去给定的string得分，然后对它们的绝对值进行sorting来完成。

一个更好的相似性sortingalgorithm的变长string: 我正在寻找一个string相似度algorithm，可变长度string比通常build议（levenshtein距离，soundex等）产生更好的结果。例如，给定stringA：“Robert”，然后串B：“艾米·罗伯逊” 会比比赛更好 stringC：“理查德” 另外，优选地，该algorithm应该是语言不可知的（也可以用非英语的语言）。

在lucene中获得两个文档之间的余弦相似度: 我已经在Lucene中build立了一个索引。我希望不指定查询，只是为了获得索引中两个文档之间的分数（余弦相似度或另一个距离？）。例如，我从以前打开的索引阅读器IR与ID 2和4的文件。Document d1 = ir.document（2）; 文件d2 = ir.document（4）; 我怎样才能得到这两个文件之间的余弦相似？谢谢

如何计算给定2个string的距离相似度量？: 我需要计算给定的2个string的距离相似性度量。那我究竟是什么意思？让我用例子来解释真正的字眼： hospital 错误的词： haspita 现在我的目标是，我需要修改错误的单词来获得真实的单词。在这个例子中，我需要修改2个字母。那么百分比是多less？我总是把真实的词汇的长度。所以它变成2/8 = 25％，所以这2个stringDSM是75％。我如何才能做到这一点，性能是一个关键的考虑因素？

如何计算两个句子的余弦相似度？ – Python: 从Python：tf-idf-cosine：查找文档相似度，可以使用tf-idf余弦计算文档相似度。如果不导入外部库，是否有任何方法来计算2个string之间的余弦相似度？ s1 = "This is a foo bar sentence ." s2 = "This sentence is similar to a foo bar sentence ." s3 = "What is this string ? Totally not related to the other two lines ." cosine_sim(s1, s2) # Should give high cosine similarity cosine_sim(s1, s3) # Shouldn't give high cosine […]

Interesting Posts

历史股票数据来源

android如何创build我自己的Activity并扩展它？

在Javascript / jQuery中从字符串生成哈希

Angular 2：从父组件获取RouteParams

如何在awk中获取数组的长度？

设置UILabel行间距

项目中的多个Docker文件

git：'send-email'不是一个git命令。看'git –help'

在一个类中使用具有成员函数的通用std :: function对象

我们可以在Java中创build一个接口的实例吗？

Julia是dynamicinput的吗？

c＃SmtpClient类不能使用Gmail发送电子邮件

在ASP.NET Webforms中使用jQuery for AJAX

Eclipse从文件读取stdin（System.in）

如何从Gulp中的string创build文件？