Tag: nlp

NLTK使用的实际例子

我正在玩自然语言工具包 (NLTK)。 它的文档( Book和HOWTO )非常庞大,有时候这个例子稍微有些先进。 NLTK的使用/应用有什么好的但基本的例子吗? 我正在考虑Stream Hacker博客上的NTLK文章 。

任何开发聊天机器人的教程?

作为一个工程专业的学生,​​我想用python做一个聊天机器人。 所以,我search了很多东西,但是找不到能教会我或给我一些具体信息来构build一个智能聊天机器人的东西。 我想制作一个聊天机器人,就像朋友和你聊天一样。 我现在期待它只是我的笔记本电脑上的一个软件(想在以后的IM,IRC或网站上实现)。 所以,我正在寻找一个教程/任何其他信息,肯定会帮助我完成我的项目。

我在哪里可以了解更多关于谷歌search“你的意思”algorithm?

可能重复: 你如何实现“你的意思”? 我写了一个应用程序,我需要function类似于谷歌的“你是什么意思? 他们的search引擎使用的function: 有源代码可用于这样的事情,或我可以在哪里可以find有助于我build立自己的文章?

词义化与词干的真正区别是什么?

我什么时候使用每个? 另外… NLTK参考依赖于词类? 如果是这样的话会不会更准确呢?

对Python中的Twitter的情感分析

我正在寻找文本情感分析 ( http://en.wikipedia.org/wiki/Sentiment_analysis )的开源实现,最好是Python。 有谁熟悉我可以使用的这种开源实现吗? 我正在编写一个应用程序,searchTwitter的某个search字词,说“youtube”,并计数“幸福”的鸣叫与“悲伤”的鸣叫。 我使用Google的appengine,所以它是在Python中。 我想能够分类从Twitter返回的search结果,我想在Python中做到这一点。 到目前为止,我还没有能够find这样的情感分析器,特别是在python中。 您是否熟悉我可以使用的这种开源实现? 最好这已经在python,但如果不是,希望我可以把它翻译成python。 请注意,我正在分析的文本非常短,他们是推文。 所以理想情况下,这个分类器是为这样的简短文本进行了优化。 顺便说一句,叽叽喳喳支持search“:)”和“:(”运营商的目的是做到这一点,但不幸的是,他们提供的分类不是很大,所以我想我可以给这个尝试自己。 谢谢! 顺便说一句,早期的演示在这里 ,我到目前为止的代码是在这里 ,我很乐意与任何感兴趣的开发人员开放它。

我怎样才能正确的前缀一个单词“一”和“一个”?

我有一个.NET应用程序,在给定一个名词的情况下,我希望它用“a”或“an”正确地加上前缀。 我该怎么做? 在你认为答案是简单地检查第一个字母是否是元音之前,请考虑以下短语: 一个诚实的错误 一辆二手车

如何用Genia语料库来训练斯坦福分析器?

我有一些问题要为斯坦福大学parsing器创build一个新的模型。 我也下载了斯坦福大学的最新版本: http : //nlp.stanford.edu/software/lex-parser.shtml 在这里,Genia语料库有两种格式,xml和ptb(Penn Treebank)。 斯坦福德parsing器可以训练与ptd文件; 然后我下载了Genia语料库,因为我想用生物医学文本工作: http://categorizer.tmit.bme.hu/~illes/genia_ptb/ (链接不再可用) (genia_ptb.tar.gz) 然后,我有一个简短的Main类来获得一个生物医学句子的依赖表示: String treebankPath = "/stanford-parser-2012-05-22/genia_ptb/GENIA_treebank_v1/ptb"; Treebank tr = op.tlpParams.diskTreebank(); tr.loadPath(treebankPath); LexicalizedParser lpc=LexicalizedParser.trainFromTreebank(tr,op); 我尝试了不同的方式,但总是得到相同的结果。 我在最后一行有一个错误。 这是我的输出: Currently Fri Jun 01 15:02:57 CEST 2012 Options parameters: useUnknownWordSignatures 2 smoothInUnknownsThreshold 100 smartMutation false useUnicodeType false unknownSuffixSize 1 unknownPrefixSize 1 flexiTag true useSignatureForKnownSmoothing false parserParams edu.stanford.nlp.parser.lexparser.EnglishTreebankParserParams forceCNF […]

苹果如何find电子邮件中的date,时间和地址?

在iOS电子邮件客户端中,当电子邮件包含date,时间或地点时,文本将成为超链接,只需点击链接即可创build约会或查看地图。 它不仅适用于英文的电子邮件,还适用于其他语言的电子邮件。 我喜欢这个function,并想了解他们是如何做到的。 这样做的天真的方法是有许多正则expression式,并运行它们。 但是,我不能很好地扩展,只能用于特定的语言或date格式等。我认为,苹果必须使用一些机器学习的概念来提取实体(8:00 PM,8 PM,8:00, 08:00,20:00,20:00,20:00,2000等)。 任何想法如何苹果能够在其电子邮件客户端如此迅速地提取实体? 你会用什么机器学习algorithm来完成这样的任务?

程序员(或计算机科学家)应该知道什么统计数据?

我是一名程序员,在math和计算机科学方面有着不错的背景。 我研究了可计算性,图论,线性代数,抽象代数,algorithm,以及在本科水平上的一些概率和统计(通过几个CS类)。 不过,我觉得我对统计数据不够了解。 统计学在计算中越来越有用,统计自然语言处理有助于为search和机器翻译中的一些Googlealgorithm提供帮助,对硬件,软件和networking的性能分析需要适当的统计基础,这些都是可信的,而生物信息学每天更普遍。 我已经阅读了关于“Google如何使用if语句使用贝叶斯过滤的方式” ,并且我知道Paul Graham的“垃圾邮件和更好的贝叶斯过滤 计划”中的问题,甚至是相当天真的,简单的统计方法,但我知道,我想超越这个。 我试图研究更多的统计数据,但是我已经有点失落了。 维基百科的文章有一长串的相关话题,但我不确定我应该看看。 我觉得从我所看到的情况来看,很多统计数字都假设一切都是线性组合的因素,加上一些高斯分布的随机噪声, 我想知道除了线性回归还有什么我应该学习的东西,或者我应该花时间去真正理解,然后再转向其他技术。 我发现了几本很长的书, 我应该从哪里开始? 所以我想知道从哪里去。 学什么,在哪里学习。 特别是,我想知道: 编程,软件工程和计算机科学中的哪些问题是非常适合的统计方法? 我将在哪里获得最大的回报? 我应该花些时间学习什么样的统计方法? 我应该使用什么资源来学习? 书籍,报纸,网站。 我希望能够讨论每本书(或其他资源)是什么,以及为什么它是相关的。 为了澄清我在寻找什么,我感兴趣的是程序员通常需要处理哪些问题可以从统计方法中受益,以及哪种统计工具是有用的。 例如: 程序员经常需要处理大型的自然语言文本数据库,并帮助分类,分类,search和处理。 什么统计技术在这里有用? 更一般地说,人工智能已经从分散的,符号的方法转向统计技术。 什么样的统计人工智能方法现在最能提供给工作程序员(而不是正在进行的研究,可能会也可能不会提供具体的结果)? 程序员经常被要求生产高性能的系统,在负载下可以很好地扩展。 但是除非你能测量,否则你不能谈论性能。 你需要用什么样的实验devise和统计工具来自信地说出结果是有意义的? 物理系统(如计算机graphics学)的模拟通常涉及随机方法。 程序员经常遇到的其他问题是否会受益于统计方法?

爪哇斯坦福大学NLP:语音标签的一部分?

这里演示的斯坦福大学的NLP给出了这样的输出结果: Colorless/JJ green/JJ ideas/NNS sleep/VBP furiously/RB ./. 词性标签是什么意思? 我无法find正式名单。 是斯坦福自己的系统,还是使用通用标签? (例如JJ是什么?) 而且,当我遍历句子,例如寻找名词时,我最终做了一些事情,比如检查标签是否.contains('N') 。 这感觉很弱。 有没有更好的方式来以编程方式search某个词类?