摘要:闵万里将在10月的云栖大会·阿里云生态峰会上分享阿里云ET大脑的项目实践,并重点介绍ET大脑的应用场景、技术挑战和未来发展。
编者按:10月11-14日,为期四天的2017杭州云栖大会(门票火热抢购中!)将再度在杭州云栖小镇起航,作为全球最具影响力的科技展会之一,本届大会将有不少阿里集团专家以及各企业行业领袖的精彩演讲。从今天开始,云栖社区将会对大会嘉宾做一系列专访(关注“云栖大会”社区公众号了解更多大会信息)。本期我们采访的是阿里云人工智能科学家闵万里,他将在10月的云栖大会·阿里云生态峰会上分享阿里云ET大脑的项目实践,并重点介绍ET大脑的应用场景、技术挑战和未来发展。
2017杭州云栖大会详情请戳这里!
闵万里,阿里云人工智能科学家,ET大脑负责人。2004年博士毕业以后加入IBM,参与IBM智慧城市研究,主攻大数据的研发和运用,2010-2012年在IBM新加坡做智慧城市,推动创新项目落地。2012年加入Google,担任数据科学家,做广告竞价的竞价模型。2013年9月加入阿里巴巴,组建了数据科学团队,支持聚划算和天猫做数据化运营。2015年加入阿里云,组建大数据孵化器团队,探索DT技术在垂直行业的创新及落地。2017年开始担任阿里云大数据事业部的总经理继续推动DT技术在各行各业的普及应用。
数据智能在阿里云的应用
闵万里加入阿里后,便迅速组建了一直能够兼顾项目研究和商业化落地的人工智能团队,这其中不得不提阿里云ET。
2016年4月,阿里云ET首次亮相,与此同时这也是首次以人工智能技术为背景,在歌唱比赛垂直业务场景中运用ET。
“这是ET首次直面公众,风险还是比较高的。”闵万里回忆道。
而最后的结果还是在这支团队的意料之中,最终ET以42%的胜率一举命中总决赛歌王李玟,并且在三轮比赛中都预测准确。“这个项目集合了阿里巴巴实时流计算的能力和多元数据实时分析的能力,还有实时预测的能力”,闵万里表示,这也阿里巴巴实时数据处理能力的一个集中展示。
和阿里巴巴其它人工智能应用场景不同,ET的首次亮相综合运用了多数据来源,包括互联网采集数据、湖南卫视的收视率数据、还有ET对上百万首歌曲的学习和理解(包括每首歌好听的层度、演绎好坏的层度、现场歌手的声调)。闵万里告诉云栖社区,ET能够对多种信号做实时解析,动态更新,每五秒做一次预测更新,而要处理这样的任务对技术的挑战是巨大的。
“这里体现了很多能力,包括对歌曲的理解,以及对歌手每一句唱得好不好的分析。因为歌曲唱得好不好本身是很主观的判断,没有明显的客观标准。”在开始比赛之前的一次性预测是很好实现的,但要收集这么大的数据量,五秒预测一次并更新,这就非常有挑战性了。
闵万里提到,为此,前期项目团队花了很长的时间来准备数据,以及让ET学习歌曲并且做出预测。用机器学习歌曲的特征,需要结合网络上歌曲的点播量、下载量、好评量等指标来判断这是不是一首好的歌,这个主要体现了项目的实时计算能力。
2016年,正值人工智能最火的那段时间,而ET凭借优异的表现毫无悬念的成为了业界关注的焦点。
不过对于闵万里而言,如何把技术对外赋能,如何让人工智能成为普惠技术,才是最终的目的。
阿里云ET项目之后,闵万里便开始推动ET大脑项目。ET大脑起初是从几个垂直行业中孵化出来的,如城市大脑、工业大脑、环境大脑、医疗大脑这些具有明显行业背景的。可以说,ET可以归属于音乐大脑。
在闵万里看来,ET用于音乐,而城市大脑用于城市管理,工业大脑用于工业生产线,它们都是实时数据、活数据、在线更新的。云栖社区了解到,ET城市大脑项目在杭州、萧山、苏州等地与相关部门合作,用城市大脑协助城市管理,具体内容包括实时信号灯控制——用互联网、高德数据实时控制信号灯,这也意味着,大脑能消费的数据变得更多。
除了信号灯的控制,利用iDST团队研发的专有算法, ET大脑还可以自动巡检几千路的视频信号,自动发现其中的异常点,极大降低人工巡查的时间和精力;另外,城市大脑还能分析市民的出行意愿,调整公交班次,自动调配;除此之外,闵万里还透露,他们正在做一些新的尝试,比如在杭州某地最近进行的城市绿波带尝试,把单个智能设备、单个智能系统串联起来,形成一个全局的智能系统,形成智能设备之间的有效联动,来最大限度的服务社会,激发数据的价值。
在这样的复杂场景下,ET大脑集成了多种人工智能技术,而这样的项目研发所遇到的挑战包括技术上的挑战和社会环境的挑战。
闵万里谈到,技术上的挑战主要来自数据源和产品化两方面:数据源的挑战是指在很多垂直场景下,很多数据拿不出来,或者没办法实时拿出来。一是因为数据获取比较复杂,或者数据拥有者有很多顾虑;二是因为有的数据拥有者虽然积极配合,但是数据残次不齐,例如说有的城市的交警数据,地面上很多线圈已经坏了,有的工业上的数据读取中有很多工业协议读取不了。
而产品化的挑战则是大多人工智能应用场景的通病:很多先进的人工智能技术和算法在实验室里效果很好,但是移植到实战当中部署的时候,需要面临实验室产品运用到行业的挑战,包括运行效率、稳健性等,比如出现数据断传的情况怎么办,出现数据被污染的情况怎么办,这些都是项目需要解决的问题。除了技术上的挑战,团队也面临环境的挑战。很多人对这种出现的新技术是质疑的,当大家看不到价值的时候都喜欢问做这些有什么价值。对于一个创新者来说,没有机会去证明他自己是很难回答这个问题的。
坚持普惠的ET大脑项目应用
目前,ET大脑涵盖了城市大脑、工业大脑、医疗大脑以及环境大脑。对于这些领域的选择,闵万里给出了他的解答:第一,项目始终坚持普惠的理念,这些行业服务的是全人类,工业制造的效率提升可以让老百姓从中受益;第二,技术上说这几个行业都是数据密集型行业,数据密度够高,价值密度也很大;第三,这些行业痛点尤其突出,因为大量的数据没有被利用起来,数据不流动就成为了“库存”,就会导致资产负担,所以要把负债变成价值。
迄今各个大脑的进展都很顺利,并且表现出了惊人的成绩。城市大脑方面,项目在杭州和苏州与相关单位已经开始合作,逐步推广落地。目前在部分区域的视频自动巡检和交通状态报警已经初见成效。工业大脑方面已经有不少成功的案例,比如流程制造的中策橡胶、协鑫、天合光能。除此之外,在装备制造、离散制造中也开始了初步尝试。医疗大脑方面,项目通过生态的力量推进医疗大脑在各个细分领域的研发,提供计算能力与算法服务。项目举办的医疗肺结节诊断大赛,在本次云栖大会中即将完美收官,并且在肺结节的诊断上已经取得了阶段性成果。环境大脑方面正在推进内蒙古自治区和阿里云ET环境大脑的合作,通过人工智能技术寻找保护环境的新方式,还利用环境大脑在江苏对固废污染源实现了智能感知。
事实上,现在的ET大脑已然成为了阿里云人工智能的代名词,它很好地解决了两方面的问题。第一,ET大脑能够解决更多行业的问题,创新性的问题;第二,ET大脑能够承载一个平台的使命,让更多有想法的人利用ET大脑的开放架构来探索更多创新应用。ET大脑的身先士卒,在一些垂直行业做出了创新的示范,极大证明了阿里云计算及大数据产品的潜力。此外,城市大脑、工业大脑、交通大脑、医疗大脑则会在接下来的航空、能源、新零售甚至安全领域做一些创新性的示范。闵万里表示,“我们希望通过这些示范能够激活更多的外脑,让社会上一些有创造性想法、有技术的公司能在ET大脑的架构上做自主创新,让ET大脑不仅仅成为阿里云自主创新的大脑,更是成为一个平台支持全民创新。”所以可以说,ET大脑希望的是把公共数据资源的价值与业务的场景快速结合,产生实战效果。
拨云见“智”,人工智能协同共生的未来
谈到阿里云ET大脑时,闵万里表示,这实质上都属于数据智能范畴——用新技术(云计算和数智技术)加上新能源(数据),来打造新物种(新零售、新制造等等)。他认为,在数据智能的实践上,要找准业务场景、痛点以及最佳应用场景,要场景化和垂直化,因为数据智能不止是一门技术,它还是技术与业务的结合,更是一种理念。
除了阿里集团本身拥有更多的算法和和计算能力之外,闵万里的成功秘诀就是敢于想别人不敢想的事儿,挑战不可能。“当所有人都说不可能的时候,有可能你就要成功了。”
当然,现在的人工智能远远没有达到大众的预期。而对于未来的趋势,闵万里也给出了他的答案——语言视频图像等单维度功能的综合协调是人工智能的下一步。
“未来的人工智能不止是视频或者语音,一定是多种功能的协同,其核心就是协同。另外,人工智能要回归到认知的本质,要在类脑的研究上下功夫。”他所带领的团队已经做出了下一步规划:一是ET大脑要产品化,要开放,ET大脑产品化正在推进中,同时项目会开放平台,邀请和鼓励生态伙伴一起在ET大脑的架构上做行业化、垂直化的创新运用;二是在一些从没有涉及的垂直领域,预计会去率先打造一些垂直示范的项目,再激活对应行业中的ISV(独立软件开发商)。
而项目的具体情况他将在杭州云栖大会上逐一公布,届时闵万里将分享拨云见“智”的话题,聚焦数据智能的生态和复合多体智能。
PS:ET大脑是一个普惠科技,致力于让更多的人在这个平台上成功,包括有想法的数据科学家、数据爱好者和合作伙伴。此外,项目天池能够提供平台、课程、数据并且定期发布任务,已经吸引了全球73个国家和地区的十万多名开发者,借助人工智能和大数据解决生产生活中的实际问题。另一方面,复合多体智能是团队对人工智能在具体场景中落地的终极判断,最近也有了一些新的尝试和实地试运行:通过对单个智能设备的串联形成了一个全局的智能系统,让系统内的各个智能设备可以群策群力,形成从感知、指挥、全局协调的智慧城市。