4月18日在地铁上刷朋友圈,看到一则新智元的新闻:“前阿里总监袁泉创办国内首家决策智能公司”。虽然和他没有打过交道,却在一年前看过他的文章。当时我们正在申请一个AI方面的项目,在调研最新研究成果时,看到了他们团队的BicNet做多智能体协同的文章,在申请方案中还借鉴到了他们的工作。当时他还在阿里的认知实验室做负责人。自从AlphaGo出现,引发通用智能和深度强化学习为代表的新技术发展后,BAT公司也迅速跟进。百度专注无人驾驶,阿里打星际,腾讯下围棋,都在学习和应用深度强化学习做智能决策。短短一年时间不到,袁泉便同他的好友龙海涛创办智能决策公司,启元世界,并成功拉到千万天使投资。昨天上午又对这家公司和两位创始人调研了一下。
袁泉,曾经在IBM中国研究院当研究员,并在2013年-2016年负责阿里认知计算实验室,他是淘宝推荐算法团队的缔造者,也是“千人千面”手淘推荐系统的设计者,因此还在当前拿到了阿里的大奖。
龙海涛,和袁泉的经历类似,也先在IBM中国研究院任职,后跳槽到阿里搜索广告业务部,曾担任阿里认知实验室技术专家,他的软件功底扎实,曾经对阿里妈妈搜索广告系统进行里的重构。
再看看这家公司要打造的核心技术。从创始人接收采访时表述的,核心技术包括深度学习、强化学习和超大规模并行计算。这三个技术是目前所有AI公司都强调的重点,也没有什么特别之处。再看看他们的近期目标:深度强化学习算法平台搭建,利用在线游戏(星际争霸2)平台做算法验证。为什么选择星际争霸来做算法验证,原因在于星际争霸是一个成熟、稳定、高效的可动态交互平台,并且它的场景满足了智能决策中的六个核心技术问题:1)不完全信息决策 2)巨大的搜索空间 3)实时强对抗 4)时间-空间推理 5)长期规划 6)多智能体协同。在这一点上大家的想法都是相同的。我们所过去一年也是按照这个思路推进对抗AI团队的工作。
那么怎么来看待这样一家新型决策智能公司的成立呢?我个人从三个层面来考虑:
它是AI技术发展的一个新阶段,从2012年开始的深度学习浪潮,大大的推动了感知智能的发展,包括目标识别、语音识别、机器翻译、人脸识别等应用先后超过了人类水平,并有大量的相关技术科技公司成立,推出产品提升效率。打卡、安防、安检,甚至是部分的医院疾病筛查等领域也都成功的应用这些产品减少人工投入。然而这个层面的AI还过于初级,因为感知和识别属于智力的较为浅层能力,小孩子到了一定年龄都具备。而决策则不然,比如星际争霸这样的游戏,股票市场的选股、公司发展的方向确认等等需要综合各种确定、不确定信息进行推理和判断,得到最有利自己的决策,需要非常高的智能水平。AlphaGo是这个领域的里程碑,标志着机器决策智能在特定领域超过人类智能,那么下一步就是一个领域一个领域的超越,最终全面的超越人类。那么在国内,成立启元世界这样的公司,便是决策智能在技术上推进,走向产业化,并向其他领域进军的新阶段。我们会看到,随着以深度强化学习技术的进步,未来会有越来越多的决策智能公司问世,在不同的领域内辅助人类决策甚至替代人类决策。
它是国内AI技术和美国AI进行竞赛的开始。Deepmind公司2015年成立,并提出了DQN算法,标志着深度强化学习算法的开端,他们很快推出了AlphaGo,接着是AlphaGo Zero, 随后Tesla的老总马斯克为代表的美国企业家推出了openAI公司,旨在研究通用人工智能,这几年来在技术层面上先后退出了很多有影响的学习算法。2017年年初,Deepmind和暴雪合作,退出了针对决策智能的验证平台 “星际争霸2”,并在文章中指出,目前决策智能的水平离人类平均水平还有很长的路要走。而启元世界则以星际争霸2为验证平台,研发智能决策模型,并期望把它应用到包括电商、金融、医疗、智能驾驶等领域。从速度上来看,国内决策智能和美国的顶级公司目前都在同一个起跑线上,朝着共同的目标前进。这一点是令人欣慰的。我们也期待启元能在这个领域和Deepmind为代表的美国决策智能最高技术一决高下。
本人也在从事这个行业,对这个领域的高速发展深有体会。一直以来都是在跟进Deepmind和OpenAI的最新成果,一方面对他们成果背后的智慧折服,也期望我们国内能有类似的成果出现。如今在决策智能,尤其是人机对抗、人机结合领域的公司成立,希望他们能有好的表现。