Tag: 信息检索

计算趋势主题或标签的最佳方式是什么?

许多网站提供了一些统计资料,如“最近24小时最热的话题”。 例如,Topix.com在其“新闻趋势”部分显示了这一点。 在那里,你可以看到提及数量增长最快的话题。 我也想计算一个话题的“嗡嗡”。 我怎么能这样做? 该algorithm应该加权总是热的话题less。 通常(几乎)没有人提到的话题应该是最热门的话题。 Google提供“热门趋势”,topix.com显示“热门话题”,fav.or.it显示“关键字趋势” – 所有这些服务有一个共同点:他们只显示即将到来的exception热点即将到来的趋势。 像“布兰妮斯皮尔斯”,“天气”或“巴黎希尔顿”这样的词汇将不会出现在这些列表中,因为它们总是很热且频繁。 这篇文章称之为“小甜甜布兰妮问题”。 我的问题:如何编码algorithm或使用现有的algorithm来解决这个问题? 在过去的24小时内search关键字的列表,algorithm会显示10(例如)最热门的。 我知道,在上面的文章中,提到了某种algorithm。 我试图用PHP编写代码,但我不认为它会起作用。 它只是发现大多数,不是吗? 我希望你能帮助我(编码的例子会很棒)。

Google Alerts API?

似乎没有Google Alerts API。 首先,除了parsingGoogle发送给您的电子邮件的文本之外,您如何将Google快讯信息放入数据库中? 如果你必须parsing文本,你将如何parsing出电子邮件的相关部分?

Python:tf-idf-cosine:查找文档相似度

我正在按照第1部分和第2 部分提供的教程,不幸的是,作者没有时间做最后部分,其中涉及使用余弦来真正find两个文档之间的相似性。 我在文中的例子跟随从以下链接的帮助从stackoverflow我已经包括在上面的链接中提到的代码只是为了让答案生活容易。 from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfTransformer from nltk.corpus import stopwords import numpy as np import numpy.linalg as LA train_set = ["The sky is blue.", "The sun is bright."] #Documents test_set = ["The sun in the sky is bright."] #Query stopWords = stopwords.words('english') vectorizer = CountVectorizer(stop_words = stopWords) #print vectorizer transformer […]