2015年底,龙猫数据CEO昝智主动停薪半年。
一年前,昝智对给公交系统做移动支付信心满满,并与他在豌豆荚负责技术的同事姚毅一拍即合,二人决定出来创业。
当时昝智已经与北上广深的公交集团达成合作。哪知商场风向瞬息万变,支付宝和微信争相在线下烧钱推广,且已蔓延至公交系统。微信、支付宝两大移动支付巨头盘踞在侧,一直烧钱运营的状态下,致使昝智的业务急剧收缩,员工也从高峰期近三十人缩到十几个人。
必须寻找下一个业务刺激点。
趁着微信红利尚未褪尽,为了让团队先活下去,昝智决定做微信公号运营,用发红包等方式聚集了一批用户,用户通过发朋友圈的方式给商家做推广,昝智称为 「众包」模式。
今天的龙猫数据40个全职员工,合作客户有50多家,靠众包平台上的400万用户,已经发展成为人工智能领域提供大数据采集标注处理、线下巡检、市场推广的服务商,平台每天平均完成任务量是20万件。
然而这个方向被昝智称为「机缘巧合」。
2016年,昝智看到AI爆发的风潮,跃跃欲试,但非科班出生的他对人工智能拿捏不准,一时进退两难。
同年6月,百度找上门来,需要非常多的原始数据来训练算法,「小度」才会变得聪明。 如果单独找上千人收集数据,不仅一时间凑不齐那么多人,而且成本会很高。在没有第三方众包平台之前,做语音识别的科大讯飞就曾自己招募了上千名标注员。
「人工智能,人工越多越智能。」昝智对新经济100人说。
依靠龙猫数据的众包平台优势,百度很快完成了数据采集。
2016年AI元年,转型还有机会。昝智总结人工智能最重要的三点:除人才外,还有两处基础服务很重要,一是数据,二是运算能力。龙猫数据将火力集中在数据上。「不要想着怎么去改变这个世界,而应该更多想想世界需要什么。」
龙猫数据投资人、九合创投创始合伙人王啸认为,「类似当年的『移动战略』,AI作为底层逻辑,将带领互联网将进入『智能互联网』阶段。智能互联网包含数据层、基础设施层、技术设施层和消费层四个基础面,其中数据层是整个链条的基础。」
随着人工智能的深入发展,文本、图片、语音、视频等形式的数据需求越来越多。相关创业公司也应需而起。新经济100人发现,行业里发展较早的海天瑞声和数据堂,前者主要做语音数据,后者有部分非定制化数据出售业务,其他创业公司还比较早期。
「我们相信能够高效率收集原始数据的公司将会创造巨大价值。」王啸说。
昝智认为,龙猫数据的优势在于能提供定制化生产需求:人工智能公司在前期搞模型时,可以用公开数据训练,但随着发展的深入,需要有定制化的数据来提高准确率。
比如近年来智能音箱的流行,首先要有唤醒词。比如百度的是「小度小度」,小米的是「小爱同学」,启动后还有指令词,比如「开空调」,「播放一首TFBOYS的《青春修炼手册》」。机器要输入不同口音、不同年龄段、各种喜怒哀乐情绪下的语音,才能变聪明。
文本类应用也很广泛。比如在各大电商的售后系统中,客服机器人的功劳不容小觑,通过一些关键词能做好顾客基本的售后服务,缓解人工客服的压力。比如在网站文章和留言的审核上,机器通过学习后能快速大量阻挡涉黄与不良信息等。
有些采集来的数据仍不能直接使用,需要人工标注才能「喂食」机器,这便要引出龙猫数据的另一大业务——数据标注,尤其在图片处理上应用较广。
比如在人脸识别上,不光要精确标注五官,就连眼睛就有好几处需要标注,内眼角、外眼角、眼角间的弧线和等分点等。比如无人车应用上,机动车、非机动车、红绿灯、行人、行驶路线等都要一一标注,给机器耐心引导。目前这块多做2D标注,未来要做的3D标注会更加复杂。
对风险比较高的金融和个人隐私数据,龙猫会先调查使用用途,用途不明的或者太隐私的数据项目会直接拒绝。对所持数据,甲乙双方都会签保密合同,数据只能使用一次,双方不能转售外泄。
据了解,很多公司通过正规渠道和价格,获取数据接口,但调用数据时,会在本地设备形成一个缓存库,当数据积累到一定程度后,便二次销售缓存库里的数据,这些缓存库也一度成为黑客的猎物。
数据提供商就这样野蛮生长着。
为了站稳脚跟,龙猫数据推出「先使用后付款」政策,如果效果不好可以不付款,早期就出现这样一个例子。
那是个文字判断项目,带有很强的主观性,连规则就有十几页,需要几万人同时做判断,客户希望准确率达到95%以上。早期运营团队缺乏经验,快到截止日了才搞清规则,最后做的效果也不好,项目一分钱没收回来。
龙猫数据销售总监谢林波很生气,在客户和运营团队两头沟通,他说昝智很冷静。「他要搞清楚问题在哪,主观和客观原因是什么,没有过多地考虑公司损失。」谢林波回忆昝智的做法。
此后再碰到难弄的文本判断类项目,龙猫会事先筛选一批标注员,比如学历高的,以前做任务很认真的,做过类似任务的,把任务定向发给这些人。
众包的用户是数据采集的来源,也是数据标注的执行者,用户运营关系到整个数据服务的规模化。
打开龙猫众包App,可以在「数据采集」任务栏下看到多个任务,有男性20个手势赚6元、老人的现在和过去赚3元、拍汽车内吸烟照片赚6.3元等,点进去会有每项任务的详情要求,对照片背景和人物姿态都有规定。新经济100人试验了几项任务,一两天左右就有审核结果出来。
用户中学生群体占大多数,还有一些宝妈和低收入年轻群体。龙猫数据发现很多人不看任务要求,还埋怨审核不通过。比如照片的脸庞往左偏与右偏都有要求,很多人经常弄混淆,以自己的方位来推断图中人的方位。后来,龙猫数据干脆录了一段视频,直观地讲解要求,有时也会开直播室来培训,实在不懂就直接电话客服。
为了减轻团队压力、活跃用户,昝智决定建立工会,给用户优惠策略,让用户管理用户,大家可以在一个群里交流,老人带新人。目前总体考核通过率50%-60%,熟练工通过率更高。
除了培训外,龙猫数据还会让用户参与审核。这在早期是不可想象的,以前都是客户给结果后,龙猫数据才给用户审核,发钱的发钱,拒绝的拒绝,但时间太长,会打击用户积极性。昝智决定打破规则,先自己审核,只要用户做好任务,就按规则发钱,这意味着龙猫要承担所有的风险,万一客户觉得效果不好,龙猫就要担着损失。
龙猫数据CTO姚毅说,目前龙猫有三种审核方式,一是自己审核,二是交给用户审核,三是自动审核,适用于客观判断题项目。后续还有交叉验证等进一步控制质量。
目前,数据采集主要在龙猫众包App上,数据标注主要在PC端。
谢林波曾做过人脸的标注任务,「要标200多个点,眼睛疼得受不了,要特别心细」,后来,他把一张脸拆成几部分,有人专门标眼睛,有人标嘴巴,大家就轻松多了,目前做1小时标注赚15元左右。
龙猫数据是一家技术加销售导向的公司,一端连着智能公司客户,一端系着普通用户,龙猫数据需要平衡好这个「跷跷板」。
有客户会和谢林波叫价,反正你们那么多人,任务那么容易,不能便宜点吗?谢林波让他们换位思考,「如果给你几块钱,你愿意拍几张照片吗,他(客户)就不说话了,那为什么别人愿意接受低廉的价格?大家要互相理解。再说了,价格低了,短时间收集不了那些数据,对你一点意义都没有。」
「我们既要对客户好,也要对用户好,这样我们才能发展,一方都不能得罪。」谢林波对新经济100人说。
除了客户与用户,龙猫数据也需要时刻关注人工智能行业的发展。随着增强学习、迁移学习等算法的发展,只需要少量数据就可以达成一定效果,数据提供商的价值是否打折?
姚毅觉得即便如此,市场仍有数据量的需求,采集和标注还是需要人来做,而且还存在不同形态、不同维度的数据,比如人脸识别,做完普通亚洲人的,还有其他人种、不同侧面、多个光源、不同年纪等。「当一个新的应用场景诞生时,就会衍生出一批新的数据需求。」
在昝智看来,未来5年内人工智能还得依赖监督学习,所谓监督学习就是人标注好了数据让机器看,监督它去学习。
除了做好数据服务外,昝智想着可以在人工智能领域做延展。比如看到不少AI公司的研发领域和数据需求很相似,日后可能参与类似数据共享平台的建设。
在更长远的定位上,龙猫数据是一家给人工智能公司提供基础服务的平台,「在这个过程中我可以洞察到很多的机会,也可能就某些机会去做进一步的事情。」昝智对新经济100人说。
当务之急,昝智想尽快把国内顶尖的互联网科技公司和AI公司都签下来,已经签约50多个,包括百度、腾讯、小米、今日头条、蔚来汽车、出门问问等。目前包括互联网巨头+新兴人工智能创业公司总共在300家左右。
「真的要有战斗精神,如果认定了这个市场,你要有非常强大的内心,你得把整个蛋糕吃完。」30岁的昝智说。
「我的作战能力是有的,但除了自己搏杀,怎么带大家都进入搏杀的状态,是需要思考的。」