Tag: 相关性

MySQL的 – 如何按照相关性? INNODB表

我在INNODB表中有大约20000行叫做'cards',所以FULLTEXT不是一个选项。 请考虑这个表格: id | name | description ———————————————————- 1 John Smith Just some dude 2 Ted Johnson Another dude 3 Johnathan Todd This guy too 4 Susan Smith Her too 5 Sam John Bond And him 6 John Smith Same guy as num 1, another record 7 John Adams Last guy, promise 所以说,用户search“约翰”,我想结果集的顺序是: 7 John […]

计算相关性 – cor() – 仅用于列的一个子集

我有一个数据框,并希望计算相关性 (与斯皮尔曼,数据是分类和排名),但只为列的一个子集。 我尝试了所有,但是R的cor ()函数只接受数字数据(x必须是数字,表示错误信息),即使使用Spearman也是如此。 一个粗暴的方法是从数据框中删除非数字列。 这不是优雅,因为速度我还是不想计算所有列之间的相关性。 我希望有一种方法可以简单地说“计算列x,y,z的相关性”。 列引用可以按编号或按名称。 我想灵活的方式来提供他们将通过vector。 任何build议表示赞赏。

根据多个ID检索Laravel模型结果

我在我的Laravel应用程序中实现了ZendSearch 。 我使用它作为我的search引擎,用户将键入一个search词,然后ZendSearch将返回按相关性sorting的结果数组。 但是, ZendSearch返回的数组只返回我的loggingID(它不返回任何实际的logging信息)。 接下来是什么正确的方式来查询我的模型来检索基于ZendSearch数组结果的结果,这是根据相关性sorting的ID数组。 我知道Model::find(1)会返回ID为1的logging,但我怎样才能为find()方法提供一个ID数组,我想按照我给它的顺序返回。

search引擎如何find相关内容?

Google在parsingnetworking时如何find相关内容? 比方说,例如,Google使用PHP原生DOM库来parsing内容。 他们有什么方法可以在网页上find最相关的内容? 我的想法是,它会search所有段落,按每个段落的长度sorting,然后从可能的searchstring和查询参数中计算出每个段落的相关百分比。 假设我们有这个url: http://domain.tld/posts/stackoverflow-dominates-the-world-wide-web.html 现在从这个URL我会弄清楚HTML文件名是高度相关的,然后我会看看这个string与页面中的所有段落有多接近! 当你分享一个页面时,一个很好的例子就是Facebook共享。 Facebook快速将链接粘贴回来,并将图片,内容等带回 我以为某种计算方法是最好的,根据周围的元素和元数据来计算相关性的百分比。 有没有关于内容分析最佳实践的书籍/信息,包括如何从网站获取最佳内容,可能讨论的任何algorithm或任何深入的答复? 我想到的一些想法是: 查找所有段落,并以纯文本的长度sorting 以某种方式finddiv容器的宽度和高度,并按(W + H) – @Benoitsorting 检查段落内的元关键字,标题,描述和检查相关性 find所有的图片标签,并按照最大的顺序排列,并且远离主要段落的节点的长度 检查对象数据,如video,并从最大段落/内容div中统计节点 找出与先前分析过的页面的相似之处 我需要这些信息的原因是: 我正在build立一个网站pipe理员给我们发送链接,然后我们列出他们的网页,但我希望网站pipe理员提交一个链接,然后我去抓取该页面find以下信息。 图像(如果适用) 来自最佳文本片段的<255段 关键词将用于我们的search引擎,(堆栈溢出风格) 元数据关键字,描述,所有图像,更改日志(用于审核和pipe理目的) 希望大家可以理解,这不是一个search引擎,但search引擎处理内容发现的方式与我所需要的相同。 我不是要求商业秘密,我问你个人的做法是什么。

我怎样才能操纵MySQL全文search的相关性,使一个领域比另一个更有价值?

假设我有两列,关键字和内容。 我有两个全文索引。 我想要在关键字中与foo相关的行与foo在内容中的行关联更多。 我需要做些什么来使MySQL对内容中的关键字进行加权比较? 我正在使用“匹配”的语法。 解: 能够以如下方式完成这项工作: SELECT *, CASE when Keywords like '%watermelon%' then 1 else 0 END as keywordmatch, CASE when Content like '%watermelon%' then 1 else 0 END as contentmatch, MATCH (Title, Keywords, Content) AGAINST ('watermelon') AS relevance FROM about_data WHERE MATCH(Title, Keywords, Content) AGAINST ('watermelon' IN BOOLEAN MODE) HAVING relevance > […]