上一问讲到深度学习的时候,我们提到了一个非常关键的名词:数据标注。
要讲清楚什么是数据标注,就不得不提到“数据标注员”这个特殊的群体。“人工智能”这个名词看似高深莫测,但目前提供给机器学习的大数据采集工作,仍基于密集劳动力的人工智能数据标注产业。那些坐在电脑前被称为“人工智能背后的工人”的人们,每天工作的内容事实上和上个世纪80年代的很多流水线工人并没有什么本质上的不同。
这是事实,无需辩驳。
据不完全统计,全国“数据标注者”从业人员已达到10万人,兼职人群接近100万。
在人工智能灼热与闪亮的背后,数据标注产业,作为做基础的支撑,显得格外粗粝与拙朴。无怪乎有人说:所谓的人工智能,就是有多少人工就有多少智能。
那么到底什么是数据标注呢?
要理解数据标注,得先理解人工智能其实是部分替代人的认知功能。回想一下人类是如何学习的,例如小时候我们认识苹果,妈妈拿着一个苹果到你面前告诉你,这是一个苹果。以后你再遇到苹果,你就知道:哦,这又大又红酸酸甜甜的东西叫做“苹果”。
类比机器学习,我们要教机器认识一个苹果,当然它是尝不出来味道的。我们只能给它一张苹果的图片,机器当然无法理解这是个什么鬼!我们得先有苹果的图片,上面标注着“苹果”两个字然后拿给机器去学习。机器虽然处理速度快记性好,但是在联想、类比和举一反三方面智商几乎为零。机器学习了A图片中的苹果,但是你再拿来一张机器从没有学习过得另一张苹果图片B,它就不一定认识了。因为我们说世界上没有两片一模一样的树叶,那么自然也没有两个一模一样的苹果了。那怎么办呢?我们通过给机器学习大量不同的苹果图片,让机器来捕捉到这些相同标注中的特征,这时候再给机器一张陌生的苹果的图片,它可能就能认出来了。
假设我们有1000张标注着“苹果”的图片,那么我们可以拿900张作为训练集,100张作为测试集。机器通过捕捉900张苹果图片中的特征学习得到一个模型,然后我们将剩下的100张机器没有见过的图片去给它识别,然后我们就能够测试出通过前面900张图片的学习,机器认识苹果的准确率有多高了。
总之,数据标注就是人类借助计算机等工具,对各种类型的数据包括文本、图片、语音、视频等,完成分类、画框、注释、标记并打上说明其某种属性的标签的工作。
人工智能是大数据喂养出来的,而数据标注是形成有价值的海量数据中非常重要的一环。如何高效的激励和组织更多人群来参与数据贡献将会是未来科技公司成功的关键。
下期内容:什么是知识图谱?|“人工智能+区块链”科普第6问