Tag: 文本分析

培训数据进行情绪分析

我在哪里可以得到一个在企业领域已被归类为正面/负面情绪的文件? 我想要一大批为公司提供评论的文件,比如分析师和媒体提供的评论。 我发现有产品和电影评论的语料库。 是否有商业领域的语料库,包括与企业语言相匹配的公司评论?

如何从一系列文本条目中提取常见/重要的短语

我有一系列文本项目 – 来自MYSQL数据库的原始HTML。 我想在这些条目中find最常用的词组(不是最常用的词组,也不是最好的单词之间的匹配)。 我的例子是在Yelp.com上的任何评论,显示从给定的餐厅数百评论3片段,格式为: “尝试汉堡包”(共44条评论) 例如本页面的“评论重点”部分: http://www.yelp.com/biz/sushi-gen-los-angeles/ 我有NLTK安装,我已经玩了一下,但老实说,select压倒。 这似乎是一个相当普遍的问题,我一直没有find一个简单的解决scheme,在这里search。 在此先感谢您的帮助。

Stemmers vs Lemmatizers

自然语言处理(NLP),特别是英语的自然语言处理已经发展到如果存在“完美”的问题,词干将成为一个古老的技术的阶段。 这是因为词干改变词汇/标记的表面forms变成一些毫无意义的词干。 然后,“完美”的lemmatizer的定义是有问题的,因为不同的NLP任务将需要不同程度的lemmatization。 例如在动词/名词/形容词forms之间转换单词 。 词干 [in]: having [out]: hav Lemmatizers [in]: having [out]: have 所以现在的问题是,英文词干今天有用吗? 因为我们有大量的英语推理工具 如果不是,那么我们应该如何build立强大的可以接受nounify , verbify , adjectify和adverbify预处理的adverbify ? 如何将词形化任务轻松地缩放到与英语具有相似形态结构的其他语言?