Tag: 相似性

Python:string的语义相似度得分

有没有用于计算一对句子的语义相似度分数的库? 我知道WordNet的语义数据库,以及如何为2个单词生成分数,但是我正在寻找能够在整个句子和输出中执行所有预处理任务(如端口词干,停用词删除等)的库两个句子如何相关的分数。 我发现了一个使用.NET框架编写的工作 ,它使用一系列预处理步骤来计算分数。 有没有任何项目,在Python中做到这一点? 我不是在寻找能够帮助我find分数的操作顺序(就像这里要求的那样) 我喜欢自己实现每个阶段,或者从不同的库中粘贴函数,以便它可以用于句对,但是我主要需要这个工具来testing数据的推论。 编辑:我正在考虑使用NLTK和计算每两个单词对这两个句子迭代的得分,然后从结果的标准偏差中得出推论,但我不知道这是否是一个合理的相似性估计。 另外,这将花费很长的时间。 再次,我正在寻找已经实现这个智能的项目/库。 东西,让我这样做: import amazing_semsim_package str1='Birthday party ruined as cake explodes' str2='Grandma mistakenly bakes cake using gunpowder' >>similarity(str1,str2) >>0.889

search具有相似文字的文章的algorithm

我有一个数据库中的许多文章(标题,文本),我正在寻找一个algorithm来findX最类似的文章,如Stack Overflow的“相关问题”,当你问一个问题。 我尝试了谷歌search,但只发现了有关其他“类似文字”问题的网页,比如将每篇文章与所有其他文章进行比较,并在某处存储相似度。 所以我在刚input的文本中“实时”做这个事情。 怎么样?

用PostgreSQL快速find类似的string

我需要在表格中创build类似string的排名。 我有下面的表格 create table names ( name character varying(255) ); 目前,我使用pg_trgm模块,它提供了similarityfunction,但是我有一个效率问题。 我创build了一个像Postgres手册所示的索引: CREATE INDEX trgm_idx ON names USING gist (name gist_trgm_ops); 并执行以下查询: select (similarity(n1.name, n2.name)) as sim, n1.name, n2.name from names n1, names n2 where n1.name != n2.name and similarity(n1.name, n2.name) > .8 order by sim desc; 查询起作用了,但是当你有数百个名字的时候真的很慢。 此外,也许我忘了一些SQL,但我不明白为什么我不能使用条件and sim > .8没有得到“列SIM卡不存在”的错误。 我想任何提示使查询更快。

查找两个数组之间的余弦相似度

我想知道在R中是否有内置函数可以find两个数组之间的余弦相似度(或余弦距离)? 目前,我执行了自己的function,但是我不禁想到R应该已经有了一个。

比较string与宽容

我正在寻找一种方法来比较一个string与一个string数组。 做一个精确的search当然很容易,但是我希望我的程序能够容忍拼写错误,缺lessstring的部分等等。 有什么样的框架可以执行这样的search? 我有一些记住,searchalgorithm会返回匹配的百分比或类似这样的几个结果顺序。

如何计算MYSQL中两个string之间的相似度

如果我在mysql中有两个string: @ a =“欢迎使用堆栈溢出” @ b =“你好堆栈溢出”; 有没有办法使用MYSQL获得这两个string之间的相似性百分比? 这里例如3个词是相似的,因此相似性应该是这样的: count(@a和@b之间的相似词)/(count(@a)+ count(@b) – count(intersection)) 因此结果是3 /(4 + 4 – 3)= 0.6 任何想法是高度赞赏!