Tag: 信息检索

计算趋势主题或标签的最佳方式是什么？: 许多网站提供了一些统计资料，如“最近24小时最热的话题”。例如，Topix.com在其“新闻趋势”部分显示了这一点。在那里，你可以看到提及数量增长最快的话题。我也想计算一个话题的“嗡嗡”。我怎么能这样做？该algorithm应该加权总是热的话题less。通常（几乎）没有人提到的话题应该是最热门的话题。 Google提供“热门趋势”，topix.com显示“热门话题”，fav.or.it显示“关键字趋势” – 所有这些服务有一个共同点：他们只显示即将到来的exception热点即将到来的趋势。像“布兰妮斯皮尔斯”，“天气”或“巴黎希尔顿”这样的词汇将不会出现在这些列表中，因为它们总是很热且频繁。这篇文章称之为“小甜甜布兰妮问题”。我的问题：如何编码algorithm或使用现有的algorithm来解决这个问题？在过去的24小时内search关键字的列表，algorithm会显示10（例如）最热门的。我知道，在上面的文章中，提到了某种algorithm。我试图用PHP编写代码，但我不认为它会起作用。它只是发现大多数，不是吗？我希望你能帮助我（编码的例子会很棒）。

Google Alerts API？: 似乎没有Google Alerts API。首先，除了parsingGoogle发送给您的电子邮件的文本之外，您如何将Google快讯信息放入数据库中？如果你必须parsing文本，你将如何parsing出电子邮件的相关部分？

Python：tf-idf-cosine：查找文档相似度: 我正在按照第1部分和第2 部分提供的教程，不幸的是，作者没有时间做最后部分，其中涉及使用余弦来真正find两个文档之间的相似性。我在文中的例子跟随从以下链接的帮助从stackoverflow我已经包括在上面的链接中提到的代码只是为了让答案生活容易。 from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfTransformer from nltk.corpus import stopwords import numpy as np import numpy.linalg as LA train_set = ["The sky is blue.", "The sun is bright."] #Documents test_set = ["The sun in the sky is bright."] #Query stopWords = stopwords.words('english') vectorizer = CountVectorizer(stop_words = stopWords) #print vectorizer transformer […]