Tag: 相关性

MySQL的 – 如何按照相关性？ INNODB表: 我在INNODB表中有大约20000行叫做'cards'，所以FULLTEXT不是一个选项。请考虑这个表格： id | name | description ———————————————————- 1 John Smith Just some dude 2 Ted Johnson Another dude 3 Johnathan Todd This guy too 4 Susan Smith Her too 5 Sam John Bond And him 6 John Smith Same guy as num 1, another record 7 John Adams Last guy, promise 所以说，用户search“约翰”，我想结果集的顺序是： 7 John […]

计算相关性 – cor（） – 仅用于列的一个子集: 我有一个数据框，并希望计算相关性（与斯皮尔曼，数据是分类和排名），但只为列的一个子集。我尝试了所有，但是R的cor （）函数只接受数字数据（x必须是数字，表示错误信息），即使使用Spearman也是如此。一个粗暴的方法是从数据框中删除非数字列。这不是优雅，因为速度我还是不想计算所有列之间的相关性。我希望有一种方法可以简单地说“计算列x，y，z的相关性”。列引用可以按编号或按名称。我想灵活的方式来提供他们将通过vector。任何build议表示赞赏。

根据多个ID检索Laravel模型结果: 我在我的Laravel应用程序中实现了ZendSearch 。我使用它作为我的search引擎，用户将键入一个search词，然后ZendSearch将返回按相关性sorting的结果数组。但是， ZendSearch返回的数组只返回我的loggingID（它不返回任何实际的logging信息）。接下来是什么正确的方式来查询我的模型来检索基于ZendSearch数组结果的结果，这是根据相关性sorting的ID数组。我知道Model::find(1)会返回ID为1的logging，但我怎样才能为find()方法提供一个ID数组，我想按照我给它的顺序返回。

search引擎如何find相关内容？: Google在parsingnetworking时如何find相关内容？比方说，例如，Google使用PHP原生DOM库来parsing内容。他们有什么方法可以在网页上find最相关的内容？我的想法是，它会search所有段落，按每个段落的长度sorting，然后从可能的searchstring和查询参数中计算出每个段落的相关百分比。假设我们有这个url： http://domain.tld/posts/stackoverflow-dominates-the-world-wide-web.html 现在从这个URL我会弄清楚HTML文件名是高度相关的，然后我会看看这个string与页面中的所有段落有多接近！当你分享一个页面时，一个很好的例子就是Facebook共享。 Facebook快速将链接粘贴回来，并将图片，内容等带回我以为某种计算方法是最好的，根据周围的元素和元数据来计算相关性的百分比。有没有关于内容分析最佳实践的书籍/信息，包括如何从网站获取最佳内容，可能讨论的任何algorithm或任何深入的答复？我想到的一些想法是：查找所有段落，并以纯文本的长度sorting 以某种方式finddiv容器的宽度和高度，并按（W + H） – @Benoitsorting 检查段落内的元关键字，标题，描述和检查相关性 find所有的图片标签，并按照最大的顺序排列，并且远离主要段落的节点的长度检查对象数据，如video，并从最大段落/内容div中统计节点找出与先前分析过的页面的相似之处我需要这些信息的原因是：我正在build立一个网站pipe理员给我们发送链接，然后我们列出他们的网页，但我希望网站pipe理员提交一个链接，然后我去抓取该页面find以下信息。图像（如果适用）来自最佳文本片段的<255段关键词将用于我们的search引擎，（堆栈溢出风格）元数据关键字，描述，所有图像，更改日志（用于审核和pipe理目的）希望大家可以理解，这不是一个search引擎，但search引擎处理内容发现的方式与我所需要的相同。我不是要求商业秘密，我问你个人的做法是什么。

我怎样才能操纵MySQL全文search的相关性，使一个领域比另一个更有价值？: 假设我有两列，关键字和内容。我有两个全文索引。我想要在关键字中与foo相关的行与foo在内容中的行关联更多。我需要做些什么来使MySQL对内容中的关键字进行加权比较？我正在使用“匹配”的语法。解：能够以如下方式完成这项工作： SELECT *, CASE when Keywords like '%watermelon%' then 1 else 0 END as keywordmatch, CASE when Content like '%watermelon%' then 1 else 0 END as contentmatch, MATCH (Title, Keywords, Content) AGAINST ('watermelon') AS relevance FROM about_data WHERE MATCH(Title, Keywords, Content) AGAINST ('watermelon' IN BOOLEAN MODE) HAVING relevance > […]