如何从一系列文本条目中提取常见/重要的短语

我有一系列文本项目 – 来自MYSQL数据库的原始HTML。我想在这些条目中find最常用的词组（不是最常用的词组，也不是最好的单词之间的匹配）。

我的例子是在Yelp.com上的任何评论，显示从给定的餐厅数百评论3片段，格式为：

“尝试汉堡包”（共44条评论）

例如本页面的“评论重点”部分：

http://www.yelp.com/biz/sushi-gen-los-angeles/

我有NLTK安装，我已经玩了一下，但老实说，select压倒。这似乎是一个相当普遍的问题，我一直没有find一个简单的解决scheme，在这里search。在此先感谢您的帮助。

我怀疑你不只是想要最常用的词组，而是想要最有趣的搭配。否则，最终可能会出现由常用词语构成的短语过多的情况，而有趣的和有信息的短语则会减less。

要做到这一点，你将基本上想从你的数据中提取n-gram，然后find那些具有最高点智能互信息（PMI）的。也就是说，你想find比你所期望的更多的单词一起出现的单词。

NLTK搭配如何涵盖如何在大约7行代码中做到这一点，例如：

import nltk from nltk.collocations import * bigram_measures = nltk.collocations.BigramAssocMeasures() trigram_measures = nltk.collocations.TrigramAssocMeasures() # change this to read in your data finder = BigramCollocationFinder.from_words( nltk.corpus.genesis.words('english-web.txt')) # only bigrams that appear 3+ times finder.apply_freq_filter(3) # return the 10 n-grams with the highest PMI finder.nbest(bigram_measures.pmi, 10)

如果你只想得到大于3个星号，你可以试试这个。我假设你已经剥离了像html等所有的垃圾

 import nltk ngramlist=[] raw=<yourtextfile here> x=1 ngramlimit=6 tokens=nltk.word_tokenize(raw) while x <= ngramlimit: ngramlist.extend(nltk.ngrams(tokens, x)) x+=1

也许不是很pythonic，因为我只有一个月左右的时间做了这个，但是可能会有所帮助！

我认为你在找什么东西。我build议阅读NLTK书的第7章或者我自己的关于块提取的文章。这两者都假定了关于词性标注的知识，这在第5章中已经介绍过了。

那么，一开始你可能不得不删除所有的HTML标签（search“<[^>] *>”并用“”replace）。之后，你可以尝试寻找每两个文本项之间最长的常见子串的简单方法，但是我不认为你会得到很好的结果。你可以做更好的规范化单词（减less他们的基本forms，删除所有口音，设置所有更低或大写），然后分析。同样，根据您想要完成的内容，如果您允许某些字词顺序灵活性，也就是说将文本项目视为标准化单词的袋子并测量包内容相似性，您可能能够更好地将文本项目聚类。

我在这里评论过类似的（虽然不是相同的）话题。

如何从一系列文本条目中提取常见/重要的短语

培训数据进行情绪分析

Stemmers vs Lemmatizers