监督学习和无监督学习有什么区别?

在人工智能和机器学习方面。 你能用一个例子来提供一个基本的,简单的解释吗?

既然你问了这个基本的问题,看起来值得指出什么是机器学习本身。

机器学习是一类数据驱动的algorithm,即不同于“正常”algorithm,它是“告诉”“好答案”是什么的数据。 例如:在图像中用于人脸检测的假想的非机器学习algorithm将尝试定义人脸是什么(圆形的皮肤状的圆盘,以及期望眼睛的黑暗区域等)。 一个机器学习algorithm不会有这样的编码定义,但会“通过示例学习”:您将显示几张脸和非脸的图像,一个好的algorithm将最终学习,并能够预测是否看不见图像是一张脸。

这个人脸检测的例子是监督的 ,这意味着你的例子必须加上标签 ,或明确地说出哪些是人脸,哪些不是。

在一个无监督的algorithm中,你的例子没有被标记 ,即你什么都不说。 当然,在这样的情况下,algorithm本身不能“发明”一张脸,但是可以尝试将数据聚类到不同的组中,例如,它可以区分面貌与风景非常不同的风景。

因为另一个答案提到了(虽然方式不正确):有“中级”的监督forms,即半监督主动学习 。 从技术上讲,这些都是有监督的方法,其中有一些“聪明”的方法来避免大量标记的例子。 在主动学习中,algorithm本身决定你应该标记哪个东西(例如,它可以确定一个景观和一匹马,但它可能会要求你确认一个大猩猩是否确实是一张脸的图片)。 在半监督学习中,有两种不同的algorithm,从标记的例子开始,然后相互“告诉”他们对大量未标记数据的看法。 他们从这个“讨论”中学习。

有监督的学习是当你给你的algorithm的数据被“标记”,以帮助你的逻辑做出决定。

示例:贝叶斯垃圾邮件过滤,您必须将项目标记为垃圾邮件才能优化结果。

无监督学习是一种types的algorithm,试图find相关性,没有任何外部input,而不是原始数据。

示例:datamining聚类algorithm。

监督学习

其中训练数据包括input向量及其相应的目标向量的例子的应用被称为监督学习问题。

无监督学习

在其他模式识别问题中,训练数据由一组没有任何相应目标值的input向量组成。 这种无监督学习问题的目标可能是在数据中发现类似的例子,在这里称之为聚类

模式识别与机器学习(Bishop,2006)

在监督学习中,scheme正在提供实际结果。因此结果被称为例子的类。

但是在无监督学习中,一个例子的类是不知道的。所以无监督学习就是试图find未标记(未知类)数据集中的隐藏结构。

无监督学习的方法包括:

  • 聚类(K均值,层次聚类)

  • 关联规则学习

监督学习的方法包括:

  • 分类(1R,朴素贝叶斯,决策树学习algorithm,如ID3 CART等)

  • 数值预测

例如,经常训练一个neural network是监督学习:你正在告诉networking哪个类对应你正在馈送的特征向量。

聚类是无监督学习:您可以让algorithm决定如何将样本分组到共享公共属性的类中。

另一个无监督学习的例子是Kohonen的自组织地图 。

如果你需要简单地知道他们的含义,我可以举个例子:举个例子:你需要知道哪辆车是汽车,哪辆是摩托车? 在监督学习中你的input数据应该有标签,这意味着首先你应该指定具有两个车轮和尺寸的车辆是摩托车(在这种情况下,我们直接给出信息)。 但是在无监督的学习中,您不会标注input。您可以为机器提供一些不同的input,并通过类似的function对机器进行群集。

简短的回答

机器学习可以分为两种学习algorithm:

监督式学习 :您可以给出不同标记的示例数据以及正确的答案。 这个algorithm会从中学习,并根据之后的input开始预测正确的结果。 例如 :垃圾邮件filter

无监督学习 :您只是提供数据,不要告诉任何事情 – 如标签或正确的答案。 algorithm自动分析数据中的模式。 示例 :Google新闻

我总是发现无监督学习和有监督学习的区别是任意的,有点混乱。 这两种情况之间没有真正的区别,相反,有一系列的情况,algorithm可以有多less“监督”。 半监督学习的存在是线条模糊的明显例子。

我倾向于把监督看作是给algorithm提供什么样的解决scheme。 对于传统的监督设置,如垃圾邮件检测,您告诉algorithm“不要在训练集上犯任何错误” ; 对于传统的无监督设置(如聚类),您告诉algorithm“彼此靠近的点应位于同一个群集中” 。 恰恰相反,第一种forms的反馈比后者更具体。

总之,当有人说'监督'的时候,想想分类,当他们说'无人监督'的时候,就会想到分类,不要过分担心。

机器学习:它研究了可以学习和预测数据的algorithm的研究和构build。这些algorithm通过build立示例input的模型来操作,以便将数据驱动的预测或决策表示为输出,而不是遵循严格的静态程序指令。

监督学习:从标注的训练数据中推导出一个function的机器学习任务。训练数据由一组训练样例组成。 在监督学习中,每个例子都是由一个input对象(通常是一个向量)和一个期望的输出值(也称为监督信号)组成的一对。 监督式学习algorithm分析训练数据并产生一个推断的函数,可用于映射新的例子。

计算机被给出了由“教师”给出的示例input及其期望输出,目标是学习将input映射到输出的一般规则。具体而言,监督学习algorithm采用已知的一组input数据和已知的响应到数据(输出),并训练一个模型来产生对新数据的响应的合理预测。

无监督学习:无老师学习。 你可能想要处理数据的一件基本的事情是将其可视化。 从无标签数据推断描述隐藏结构的function是机器学习任务。 由于给学习者的例子没有标签,因此没有错误或奖励信号来评估潜在的解决scheme。 这将无监督学习与有监督学习区分开来。 无监督学习使用试图find模式的自然分区的程序。

在无监督学习的情况下,没有基于预测结果的反馈,也就是没有老师来纠正你。在无监督的学习方法下没有提供标记的例子,在学习过程中没有输出的概念。 因此,学习scheme/模型可以find模式或发现input数据的组

当你需要大量的数据来训练你的模型时,你应该使用无监督的学习方法,以及尝试和探索的意愿和能力,当然这是一个通过更多已build立的方法不能很好解决的挑战。有可能学习比监督学习更大更复杂的模型。 这是一个很好的例子

监督式学习,给出数据和答案。

给邮件标记为垃圾邮件/不是垃圾邮件,学习垃圾邮件filter。

给定诊断为患有糖尿病的患者的数据集,学会将新患者分类为患有糖尿病或不患有糖尿病。

无监督的学习,给数据没有答案,让电脑分组的东西。

鉴于networking上发现的一组新闻文章,将其分成一组关于同一故事的文章。

给定一个自定义数据的数据库,自动发现细分市场,并将客户分组到不同的细分市场。

参考

监督学习:从标记的训练数据推断一个function的机器学习任务。

无监督学习:从“未标记”数据(分类或分类不包括在观察中)推断描述隐藏结构的function的机器学习任务。

监督式学习中,我们知道input和输出应该是什么。 例如,给定一组汽车。 我们必须找出哪些是红色的,哪些是蓝色的。

然而, 无监督学习是我们必须很less或根本不知道输出结果如何才能find答案的地方。 例如,学习者可以build立一个模型,根据面部模式和“你在笑什么?”等词的相关性来检测人们何时微笑。

监督学习可以根据训练期间的学习将新项目标记为训练标签之一。 您需要提供大量的训练数据集,validation数据集和testing数据集。 如果您提供数字的像素图像向量以及带有标签的训练数据,则可以识别数字。

无监督学习不需要训练数据集。 在无监督学习中,可以根据input向量的不同将项目分组为不同的聚类。 如果你提供数字的像素图像向量,并要求它分为10类,它可能会这样做。 但它确实知道如何标签,因为您没有提供培训标签。

监督式学习基本上是在inputvariables(x)和输出variables(y)的地方,使用algorithm学习从input到输出的映射函数。 之所以称之为监督,是因为algorithm从训练数据集中学习,该algorithm迭代地对训练数据进行预测。 监督有两种types – 分类和回归。 分类是当输出variables是类似的是/否,真/假。 回归是当输出是人的身高,温度等真实值时。

联合国监督学习是我们只有input数据(X)和没有输出variables的地方。 这被称为无监督学习,因为不同于上述的监督学习,没有正确的答案,也没有教师。 algorithm留给自己的devise来发现和呈现数据中有趣的结构。

无监督学习的types是聚类和协会。

监督机器学习

“algorithm从训练数据集中学习并预测输出的过程”。

预测输出的精度与训练数据成正比(长度)

监督式学习是指inputvariables(x)(训练数据集)和输出variables(Y)(testing数据集)的位置,并使用algorithm学习input到输出的映射函数。

Y = f(X) 

主要types:

  • 分类(离散y轴)

  • 预测(连续y轴)

algorithm:

  • 分类algorithm:

     Neural Networks Naïve Bayes classifiers Fisher linear discriminant KNN Decision Tree Super Vector Machines 

    预测algorithm:

     Nearest neighbor Linear Regression,Multi Regression 

应用领域:

  • 1)将电子邮件分类为垃圾邮件
    2)分类患者是否有疾病
    3)语音识别

    4)预测HRselect特定候选人

    5)预测股票市场价格