过了个年我又回来啦!
先给大家拜个晚年,然后我们来直奔主题说一说鉴黄师的工作状态。
首先,鉴黄师没太可能跟普通白领一样正常上下班,所以不要脑补他们九点钟坐在电脑前端着咖啡开开心心看黄图的场景了,鉴黄师们一般都需要三班倒,因为前面说了,任何一个负责任不负责任的反垃圾相关的公司或业务,都要求7*24h不间断工作,三班倒自然也是情理之中了。鉴黄师们到点上班,打开长相各异的过滤系统开始工作。
等一下!!!
你是不是以为鉴黄师要每天坐在电脑前看小黄图看撕逼内容看一些不该看的内容看的吐?
too young too naive。
作为引领科技前沿的我们,是不会让这种事情发生的。“一切“任何需要重复做的工作都应该由机器完成”这句话可不是随便说说。综合现有的产品,需要进行反垃圾的内容大致可以分成四类:文本 图片 视频 和音频,针对这四种,公司已经有自动化程度非常高的技术去进行在线查杀。
文字:文字的反垃圾说难也难说简单也简单,不断积累实时更新的敏感词库,可以让已有的样本在线拦截,以此已经过滤掉相当一部分内容。除此之外,规则 聚类系统也可以精准搞笑的进行垃圾文本查杀,误删率低极地。
经过在线过滤,文字已经有相当一部分内容被机器分担,剩下的部分需有鉴黄师进行人工识别,毕竟汉语博大精深,组合序列亿万种,人工查杀有嫌疑的数据,可以有效保证数据的准确性。出贴速度也可以得到保证。
图片:针对图片的反垃圾,目前也已经有相当成熟的技术,图片识别深度学习/md5码/URL链,针对图片的像素级的识别,可有效区分各类图片,包括前段时间非常流行的虚拟人脑的技术,目前也都可以实现(链接)听起来很玄乎,简单解释就是不需要图片已有样本就可以对图片进行识别分类,针对违规的图片可以由机器直接处理。
视频:并不需要整个片子看完,截取其中的关键帧,以图片的形式审阅即可。
音频:转换成文字,以文字方式进行过滤。
以上就是对鉴黄师的初步讲解,为小白讲述鉴黄师与反垃圾的工作内容。希望大家对以唐马儒为代表额鉴黄师们有个再深入些的认识。
鉴黄师是非常伟大的,虽然我们不能保证将来他不会被机器替代。
-----------------
辅助阅读:
人工智能“毁灭”了鉴黄师?未来也许将毁灭人类
http://mp.weixin.qq.com/s?__biz=MzAwOTQ3MTQ2MQ==&mid=502382515&idx=1&sn=75565ab36b4794811503bc58108bed89&scene=4#wechat_redirect