有标签和无标签数据有什么区别？

在Sebastian Thrum的这段video中，他表示，监督学习与“标记”数据一起工作，无监督学习与“未标记”数据一起工作。这是什么意思？谷歌search“标签与未标记的数据”返回一堆关于这个话题的学术论文。我只是想知道基本的区别。

通常情况下，未标记的数据由自然或人为创build的文物样本构成，您可以从世界上相对容易地获取这些文物。没有标签的数据的一些例子可能包括照片，录音，video，新闻文章，推文，x光片（如果您正在从事医疗应用程序）等等。对于每个无标签的数据都没有“解释”只是包含数据，没有别的。

标记的数据通常需要一组未标记的数据，并用某种有意义的“标记”，“标记”或“类”来增加每个未标记数据的每一段。例如，以上types的无标签数据的标签可能是这张照片是否包含马或牛，在这个录音中说出哪些单词，在这个video中正在执行什么types的动作，这篇新闻文章的主题是什么是，这个推特的整体情绪是什么，这个X射线的点是否是肿瘤等等。

数据标签通常是通过要求人们对一个给定的无标签数据做出判断（例如，“这张照片是否包含马或牛？”），并且比原始的未标记数据更昂贵。

在获得标记的数据集之后，可以将机器学习模型应用于数据，使得可以将新的未标记的数据呈现给模型，并且可以猜测或预测该未标记的数据的标签。

机器学习有许多活跃的研究领域，旨在整合未标记和标记的数据，以build立更好更精确的世界模型。半监督学习尝试将未标记和标记的数据（或者更一般地说，只有一些数据点具有标签的未标记数据集合）整合到集成模型中。深度neural network和特征学习是试图单独build立无标签数据模型的研究领域，然后将标签中的信息应用到模型的有趣部分。

机器学习有许多不同的问题，所以我将select分类作为一个例子。在分类中，带标签的数据通常由一袋多维特征向量（通常称为X）组成，并且对于每个向量一个标签，Y通常只是一个对应于一个类别的整数，例如。（face = 1，non-face = -1）。未标记的数据错过了Y分量。有许多情况下，未标记的数据是丰富的，而且很容易获得，但标记的数据通常需要人工/专家进行注释。

有标签和无标签数据有什么区别？

如何识别这个图像中的矩形？

深信仰networking与卷积neural network

为什么一个热门编码可以提高机器学习性能？

线性回归和逻辑回归有什么区别？

当input数量可变时neural network是如何使用的？

公开发布的垃圾邮件filter培训集

如何获得scikit-learn分类器的大多数信息function？

如何将数据分成3组（火车，validation和testing）？

最快的通用机器学习库？

在pip中找不到张量stream