机器学习和自然语言处理

假设你知道一个想学习机器学习和自然语言处理的学生。

你会推荐哪些入门科目？

例如：我猜测，知道Prolog和Matlab可能会帮助他。他也可能想学习离散结构*，微积分和统计。

*图和树木。函数：属性，recursion定义，解决重复。关系：属性，等价，部分秩序。 certificate技巧，归纳certificate。计数技术和离散概率。逻辑：命题演算，一阶谓词演算。正式推理：自然演绎，parsing。应用程序正确性和自动推理。计算中的代数结构介绍。

这个相关的stackoverflow问题有一些很好的答案：有兴趣进行自然语言处理的人有什么好的起点？

这是一个非常大的领域。先决条件主要包括概率/统计学，线性代数和基础计算机科学，尽pipe自然语言处理需要更深入的计算机科学背景（经常包括一些基本的AI）。关于具体的语言：Lisp被创build为“AI事后研究” ，而Prolog（根源于forms逻辑）特别针对自然语言处理，许多课程将使用Prolog，Scheme，Matlab，R或其他function语言（例如OCaml在Cornell的这门课程中使用），因为它们非常适合这种分析。

以下是一些更具体的指针：

对于机器学习， 斯坦福大学的CS 229：机器学习非常棒：它包括了所有的内容，包括讲座的全部video（也可以在iTunes上），课程笔记，问题集等等，而Andrew Ng的教导非常好。

请注意先决条件：

学生应具备以下背景知识：掌握基本的计算机科学原理和技能，足以编写合理的非平凡计算机程序。熟悉基本的概率论。熟悉基本的线性代数。

课程使用Matlab和/或八度。它还build议以下阅读材料（虽然课程笔记本身非常完整）：

Christopher Bishop，模式识别和机器学习。施普林格，2006年。
Richard Duda，Peter Hart和David Stork， Pattern Classification ，2nd ed。 John Wiley＆Sons，2001。
Tom Mitchell，机器学习。 McGraw-Hill，1997。
Richard Sutton和Andrew Barto，强化学习：介绍。 MIT出版社，1998年

对于自然语言处理，斯坦福大学的NLP团队提供了许多优质的资源。 “ 斯坦福大学CS 224：自然语言处理 ”入门课程包括所有在线讲座，并具有以下先决条件：

在编程和正式结构方面有足够的经验。编程项目将使用Java 1.5编写，因此需要了解Java（或自行学习）的知识。对人工智能和/或计算语言学中标准概念的了解。基本熟悉逻辑，向量空间和概率。

一些推荐的文本是：

Daniel Jurafsky和James H. Martin。 2008. 语音和语言处理：自然语言处理，计算语言学和语音识别。第二版。学徒霍尔。
Christopher D. Manning和HinrichSchütze。统计自然语言处理基础。 MIT出版社。
詹姆斯·艾伦自然语言理解。本杰明/卡明斯，2ed。
杰拉尔德Gazdar和克里斯Mellish。 1989年。Prolog中的自然语言处理。 Addison-Wesley出版社。（这是免费在线）
弗雷德里克·耶利内克。语音识别的统计方法。 MIT出版社。

前提计算语言学课程需要基本的计算机编程和数据结构知识，并使用相同的教科书。所需的人工智能课程也可以在网上与所有课堂笔记和用途一起提供：

S.Russell和P.Norvig，“ 人工智能：现代方法” 。第二版

这是标准的人工智能文本，也值得一读。

我使用R进行机器学习，并真正推荐它。为此，我build议您查看统计学习的要素，全文可在线免费获取。您可能想要参考CRAN上的机器学习和自然语言处理视图以了解特定的function。

我的build议将是这些的一个或所有（取决于他的数量和感兴趣的领域）：

牛津计算语言学手册：

牛津计算语言学手册http://ukcatalogue.oup.comhttp://img.dovov.comen_US/covers/medium/9780199276349_140.jpg

统计自然语言处理的基础：

统计自然语言处理的基础fsnlp/fsnlp.gif

信息检索介绍：

信息检索介绍IR-book/iir.jpg

stringalgorithm，包括后缀树。微积分和线性代数。各种统计变化。人工智能优化algorithm。数据聚类技术…还有其他一百万种。这是一个非常活跃的领域，取决于你打算做什么。

Pythonselect哪种语言并不重要，例如Python有NLTK，这是一个非常好的免费软件包，用于修补计算语言学。

我会说可能性和统计是最重要的先决条件。特别是高斯混合模型 （GMMs）和隐马尔可夫模型 （ HMMs ）在机器学习和自然语言处理中都是非常重要的（当然，如果是介绍性的话，这些主题可能是课程的一部分）。

那么，我会说CS的基本知识也是有帮助的，例如algorithm ， forms语言和基本的复杂性理论。

斯坦福大学CS 224：提到的自然语言处理课程已经包括在线video （除了其他课程教材）。 video没有链接到课程网站上，所以很多人可能不会注意到它们。

Jurafsky和Martin的语音和语言处理http://www.amazon.com/Speech-Language-Processing-Daniel-Jurafsky/dp/0131873210/是非常好的。; 不幸的是，草稿第二版的章节已不再免费在线，现已发布:(

另外，如果你是一个体面的程序员，玩NLP程序永远不会太早。想起NLTK（Python）。它有一本书，你可以在网上免费阅读，已经发表（我认为是OReilly）。

Markdown和parsingexpression式语法（PEG）的介绍是如何通过cletus在他的网站的cforcoding上发布的？

ANTLR似乎是开始进行自然语言处理的好地方。我不是专家。

广泛的问题，但我当然认为有限状态自动机和隐马尔可夫模型的知识将是有用的。这需要知识的统计学习，贝叶斯参数估计和熵。

潜在语义索引是许多机器学习问题中最常用的工具。有些方法比较容易理解。有一些潜在的基础项目。

为文档/段落/句子聚类find文本语料库中的同现事件 。
分类文本语料库的心情。
自动注释或汇总文档。
find单独的文档之间的关系，以自动生成文档之间的“graphics”。

编辑： 非负matrix分解 （NMF）是一个工具，由于其简单性和有效性已经大大stream行。这很容易理解。我目前正在研究使用NMF进行音乐信息检索; NMF也被certificate对于文本语料库的潜在语义索引是有用的。这是一张纸。 PDF

Prolog只会在学术上帮助他们，它也限制了逻辑约束和基于语义NLP的工作。 Prolog还不是一个行业友好的语言，所以在现实世界中还不实用。而且，matlab也是一个基于学术的工具，除非他们正在进行大量的科学研究或基于数量的工作，他们实际上并不需要太多的工作。开始他们可能想拿起“诺维格”书，进入人工智能的世界，在所有的领域打下基础。理解一些基本的概率，统计学，数据库，操作系统，数据结构，最可能的是理解和使用编程语言的经验。他们需要能够certificate为什么人工智能技术的工作和他们不这样做。然后看看机器学习和NLP等更多细节。事实上，诺维书本在每一章之后都提供了参考资料，所以他们已经有了很多更深入的阅读资料。有很多参考资料可以通过互联网，书籍和期刊论文获得指导。不要只读本书，尝试用编程语言来构build工具，然后推断出“有意义”的结果。学习algorithm实际上是否按照预期学习，如果不是这样的话，怎么可能修复。

机器学习和自然语言处理

改变训练的图像训练neural network

期望最大化技术的直观解释是什么？

深信仰networking与卷积neural network

人工智能游乐场？

Python NLTK pos_tag不返回正确的词性标记

真实世界的错字统计？

Tensorflow：如何保存/恢复模型？

具有未知数量的簇的无监督聚类

指点一些很好的SVM教程

支持向量机 – 硬性还是软性边际？