Tag: nltk

wordnet lemmatization和pos标签在python中

我想在python中使用wordnet lemmatizer,并且我已经了解到默认的pos标签是NOUN,并且它不会为动词输出正确的引理,除非pos标签显式指定为VERB。 我的问题是为了准确地进行上述的词性化,最好的办法是什么? 我使用nltk.pos_tag进行了pos标记,而且我正在将树库pos标记集成到wordnet兼容的pos标记中。 请帮忙 from nltk.stem.wordnet import WordNetLemmatizer lmtzr = WordNetLemmatizer() tagged = nltk.pos_tag(tokens) 我得到NN,JJ,VB,RB中的输出标签。 如何将这些更改为与wordnet兼容的标签? 还有,我必须训练nltk.pos_tag()带标签的语料库,或者我可以直接在我的数据上使用它来评估?

点安装几乎任何库的问题

我很难用pip来安装几乎所有东西。 我是新来的编程,所以我想也许这是我一直在做错的东西,并select了easy_install来获得我所需要做的大部分,这一般工作。 但是,现在我正在尝试下载nltk库,而且也没有完成任务。 我试图进入 sudo pip install nltk 但得到以下回应: /Library/Frameworks/Python.framework/Versions/2.7/bin/pip run on Sat May 4 00:15:38 2013 Downloading/unpacking nltk Getting page https://pypi.python.org/simple/nltk/ Could not fetch URL [need more reputation to post link]: There was a problem confirming the ssl certificate: <urlopen error [Errno 1] _ssl.c:504: error:0D0890A1:asn1 encoding routines:ASN1_verify:unknown message digest algorithm> Will skip URL [need […]

从文本内容生成代码

我很好奇,如果有一个algorithm/方法存在从给定的文本生成关键字/标签,通过使用一些重量计算,发生率或其他工具。 另外,如果你指出任何基于Python的解决scheme/库,我将不胜感激。 谢谢

以编程方式安装NLTK语料库/模型,即没有GUI下载器?

我的项目使用NLTK。 如何列出项目的语料库和模型要求,以便自动安装? 我不想单击nltk.download() GUI,逐个安装软件包。 此外,任何方式冻结相同的要求列表(如点击pip freeze )?

保存朴素贝叶斯训练分类器在NLTK

对于我如何保存一个训练有素的分类器,我有点困惑。 就像在我每次想使用它时重新训练一个分类器显然是非常糟糕和缓慢的,我如何保存它并在我需要的时候再次加载呢? 代码如下,预先感谢您的帮助。 我正在使用Python与NLTK朴素贝叶斯分类器。 classifier = nltk.NaiveBayesClassifier.train(training_set) # look inside the classifier train method in the source code of the NLTK library def train(labeled_featuresets, estimator=nltk.probability.ELEProbDist): # Create the P(label) distribution label_probdist = estimator(label_freqdist) # Create the P(fval|label, fname) distribution feature_probdist = {} return NaiveBayesClassifier(label_probdist, feature_probdist)

在NLTK中parsing英文语法

有没有一个现成的英语语法,我可以加载它并在NLTK中使用? 我已经search了parsingNLTK的例子,但似乎我必须在parsing一个句子之前手动指定语法。 非常感谢!

使用NLTK清除停用词

我试图通过使用nltk工具包删除停用词来处理用户input的文本,但与停止词删除像'和','或','不''被删除。 我希望这些词在停用词删除过程后出现,因为它们是以后处理文本作为查询所需的运算符。 我不知道在文本查询中哪些是可以作为操作符的词,我也想从我的文本中删除不必要的词。

如何从一系列文本条目中提取常见/重要的短语

我有一系列文本项目 – 来自MYSQL数据库的原始HTML。 我想在这些条目中find最常用的词组(不是最常用的词组,也不是最好的单词之间的匹配)。 我的例子是在Yelp.com上的任何评论,显示从给定的餐厅数百评论3片段,格式为: “尝试汉堡包”(共44条评论) 例如本页面的“评论重点”部分: http://www.yelp.com/biz/sushi-gen-los-angeles/ 我有NLTK安装,我已经玩了一下,但老实说,select压倒。 这似乎是一个相当普遍的问题,我一直没有find一个简单的解决scheme,在这里search。 在此先感谢您的帮助。

python四克,五克,六克?

我正在寻找一种将文本分成n-gram的方法。 通常我会做这样的事情: import nltk from nltk import bigrams string = "I really like python, it's pretty awesome." string_bigrams = bigrams(string) print string_bigrams 我知道nltk只提供bigrams和trigrams,但是有没有办法把文本分成四克,五克甚至几百克? 谢谢!

如何摆脱标点符号使用NLTK tokenizer?

我刚刚开始使用NLTK,我不太明白如何从文本中获取单词列表。 如果我使用nltk.word_tokenize() ,我会得到一个单词和标点符号列表。 我只需要这个词。 我怎样才能摆脱标点符号? 此外, word_tokenize不适用于多个句子:点被添加到最后一个单词。