有标签和无标签数据有什么区别?

在Sebastian Thrum的这段video中,他表示,监督学习与“标记”数据一起工作,无监督学习与“未标记”数据一起工作。 这是什么意思? 谷歌search“标签与未标记的数据”返回一堆关于这个话题的学术论文。 我只是想知道基本的区别。

通常情况下,未标记的数据由自然或人为创build的文物样本构成,您可以从世界上相对容易地获取这些文物。 没有标签的数据的一些例子可能包括照片,录音,video,新闻文章,推文,x光片(如果您正在从事医疗应用程序)等等。对于每个无标签的数据都没有“解释”只是包含数据,没有别的。

标记的数据通常需要一组未标记的数据,并用某种有意义的“标记”,“标记”或“类”来增加每个未标记数据的每一段。 例如,以上types的无标签数据的标签可能是这张照片是否包含马或牛,在这个录音中说出哪些单词,在这个video中正在执行什么types的动作,这篇新闻文章的主题是什么是,这个推特的整体情绪是什么,这个X射线的点是否是肿瘤等等。

数据标签通常是通过要求人们对一个给定的无标签数据做出判断(例如,“这张照片是否包含马或牛?”),并且比原始的未标记数据更昂贵。

在获得标记的数据集之后,可以将机器学习模型应用于数据,使得可以将新的未标记的数据呈现给模型,并且可以猜测或预测该未标记的数据的标签。

机器学习有许​​多活跃的研究领域,旨在整合未标记和标记的数据,以build立更好更精确的世界模型。 半监督学习尝试将未标记和标记的数据(或者更一般地说,只有一些数据点具有标签的未标记数据集合)整合到集成模型中。 深度neural network和特征学习是试图单独build立无标签数据模型的研究领域,然后将标签中的信息应用到模型的有趣部分。

机器学习有许​​多不同的问题,所以我将select分类作为一个例子。 在分类中,带标签的数据通常由一袋多维特征向量(通常称为X)组成,并且对于每个向量一个标签,Y通常只是一个对应于一个类别的整数,例如。 (face = 1,non-face = -1)。 未标记的数据错过了Y分量。 有许多情况下,未标记的数据是丰富的,而且很容易获得,但标记的数据通常需要人工/专家进行注释。