Tag: nltk

如何使用nltk或python删除停用词

所以我有一个数据集,我想删除使用停用词 stopwords.words('english') 我正在努力如何在我的代码中使用这个只是简单地拿出这些单词。 我已经从这个数据集的单词列表中,我正在努力与该列表比较,并删除停用词。 任何帮助表示赞赏。

NLTK使用的实际例子

我正在玩自然语言工具包 (NLTK)。 它的文档( Book和HOWTO )非常庞大,有时候这个例子稍微有些先进。 NLTK的使用/应用有什么好的但基本的例子吗? 我正在考虑Stream Hacker博客上的NTLK文章 。

资源u'tokenizers / punkt / english.pickle'找不到

我的代码: import nltk.data tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') 错误信息: [ec2-user@ip-172-31-31-31 sentiment]$ python mapper_local_v1.0.py Traceback (most recent call last): File "mapper_local_v1.0.py", line 16, in <module> tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') File "/usr/lib/python2.6/site-packages/nltk/data.py", line 774, in load opened_resource = _open(resource_url) File "/usr/lib/python2.6/site-packages/nltk/data.py", line 888, in _open return find(path_, path + ['']).open() File "/usr/lib/python2.6/site-packages/nltk/data.py", line 618, in find raise LookupError(resource_not_found) LookupError: Resource […]

NLTK的所有pos标签是什么?

如何find一个包含所有可能的自然语言工具包(nltk)使用的pos标签的列表?

尝试下载nltk数据时出现405错误

当我尝试下面的代码 python -c "import nltk; nltk.download('punkt'); nltk.download('averaged_perceptron_tagger'); nltk.download('maxent_treebank_pos_tagger'); nltk.download('wordnet')" 控制台说 [nltk_data] Error loading punkt: HTTP Error 405: Not allowed. [nltk_data] Error loading averaged_perceptron_tagger: HTTP Error 405: [nltk_data] Not allowed. [nltk_data] Error loading maxent_treebank_pos_tagger: HTTP Error 405: [nltk_data] Not allowed. [nltk_data] Error loading wordnet: HTTP Error 405: Not allowed.

什么是“熵和信息获得”?

我正在阅读这本书( NLTK ),它很混乱。 熵被定义为 : 熵是每个标签的概率乘以相同标签的对数概率的总和 如何在文本挖掘中应用熵和最大熵 ? 有人可以给我一个简单,简单的例子(视觉)?

在动词/名词/形容词forms之间转换单词

我想要一个能够翻译/转换不同词类的python库函数。 有时它应该输出多个单词(例如,“编码器”和“编码”都是从动词“代码”的名词,一个是另一个的对象的主题) # :: String => List of String print verbify('writer') # => ['write'] print nounize('written') # => ['writer'] print adjectivate('write') # => ['written'] 我主要关心动词<=>名词,我要写一个记笔记的程序。 即我可以写“咖啡因拮抗A1”或“咖啡因是一个A1拮抗剂”,并与一些NLP它可以发现他们的意思是同样的事情。 (我知道这并不容易,而且需要parsingNLP,而不是只是标记,但是我想破解一个原型)。 类似的问题…把形容词和副词转换成它们的名词forms (这个答案只是源于POS,我想要在POS之间) ps在语言学中称为转换http://en.wikipedia.org/wiki/Conversion_%28linguistics%29

无法使用nltk.data.load加载english.pickle

当试图加载punkt词器… import nltk.data tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') …一个LookupError被提出: > LookupError: > ********************************************************************* > Resource 'tokenizers/punkt/english.pickle' not found. Please use the NLTK Downloader to obtain the resource: nltk.download(). Searched in: > – 'C:\\Users\\Martinos/nltk_data' > – 'C:\\nltk_data' > – 'D:\\nltk_data' > – 'E:\\nltk_data' > – 'E:\\Python26\\nltk_data' > – 'E:\\Python26\\lib\\nltk_data' > – 'C:\\Users\\Martinos\\AppData\\Roaming\\nltk_data' > **********************************************************************

Python:tf-idf-cosine:查找文档相似度

我正在按照第1部分和第2 部分提供的教程,不幸的是,作者没有时间做最后部分,其中涉及使用余弦来真正find两个文档之间的相似性。 我在文中的例子跟随从以下链接的帮助从stackoverflow我已经包括在上面的链接中提到的代码只是为了让答案生活容易。 from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfTransformer from nltk.corpus import stopwords import numpy as np import numpy.linalg as LA train_set = ["The sky is blue.", "The sun is bright."] #Documents test_set = ["The sun in the sky is bright."] #Query stopWords = stopwords.words('english') vectorizer = CountVectorizer(stop_words = stopWords) #print vectorizer transformer […]

用于情感分析的NaiveBayesClassifier培训

我正在Python中使用句子来训练NaiveBayesClassifier ,它给了我下面的错误。 我不明白这个错误是什么,任何帮助都是好的。 我已经尝试了许多其他input格式,但错误仍然存​​在。 代码如下: from text.classifiers import NaiveBayesClassifier from text.blob import TextBlob train = [('I love this sandwich.', 'pos'), ('This is an amazing place!', 'pos'), ('I feel very good about these beers.', 'pos'), ('This is my best work.', 'pos'), ("What an awesome view", 'pos'), ('I do not like this restaurant', 'neg'), ('I am tired […]