1.1 行业概述
AI是使用机器代替人类实现认知、分析、决策等功能的综合学科
•人工智能(Artificial Intelligence)是指使用机器代替人类实现认知、识别、分析、决策等功能,其本质是对人的意识与思维的信息过程的模拟,是一门综合了计算机科学、生理学、哲学的交叉学科。凡是使用机器代替人类实现认知、识别、分析、决策等功能,均可认为使用了人工智能技术。
•作为一种基础技术,理论上讲人工智能能够被应用在各个基础行业(如AI+金融、AI+医疗、AI+传统制造业等),同时也有其如机器人这样具体应用行业的概念。
•本报告将以2017年上半年为时间节点,对包括发展驱动力、巨头布局、投融资情况、预测的市场规模等在内的人工智能行业到目前为止的整体发展情况做简要分析,并对包括数据标记、语音识别、语义识别、计算机视觉等技术领域以及安防、医疗、金融等应用场景在内的细分领域及其典型企业进行简析,探索人工智能领域未来发展趋势和可能的投资/创业机会。
图片来源:36氪研究院
注释:结合了物联网与人工智能的智能制造行业也是AI的重要应用场景之一,关于该领域的详细研究讨论请见36氪研究院系列报告《新制造研究报告》。
1.2 行业驱动力
技术驱动:算法和计算力是主要驱动力
•在AI发展的不同阶段,驱动力各有侧重,我们可以将AI的发展划分为三个阶段:技术驱动阶段、数据驱动阶段和场景驱动阶段。
•技术驱动阶段集中诞生了基础理论、基本规则和基本开发工具。在此阶段,算法和计算力对AI的发展起到主要推动作用。现在主流应用的基于多层网络神经的深度算法,一方面不断加强从海量数据库中自行归纳物体特征的能力,一方面不断加强对新事物多层特征提取、描述和还原的能力。
•对算法来说,归纳和演绎同样重要,最终目的是提高识别效率。最新ImageNet测试结果显示,AI错误率低达3.5%,而人类对同一数据库识别错误率在5.1%1,理想情况下,计算机图像识别能力已超越人类。
•如上图所示,每年在ImageNet测试中错误率最低的算法模型都不尽相同(从NEC到ResNet),这也反映了人们对于算法的不断探究、更迭过程。
计算力的三驾马车:芯片、超级计算机、云计算
•提高识别效率除依靠算法之外,也离不开计算力的支持。计算力可以分三个维度展开:芯片、超级计算机、云计算。
•芯片:人工智能领域作为一个数据密集的领域,传统的数据处理技术难以满足高强度并行数据的处理需求。为解决此问题,继CPU之后,相继出现了GPU、NPU、FPGA、DSP等“AI”芯片。1999 年,Nvidia公司发布了全球首款图片处理芯片GPU;2016年,寒武纪发布了全球首款深度学习专用处理器芯片NPU,芯片的更迭、进步可从根本上提高计算性能。
•超级计算机:其基本组成组件与个人电脑的概念无太大差异,但规格与性能则强大许多,是一种超大型电子计算机。我国自主超级计算机“神威·太湖之光”,其处理器为众核CPU“申威26010”,整台“神威·太湖之光”共包含40960块处理器;打败李世石的AlphaGo共包含1202个CPU和176个GPU;打败柯洁的升级版AlphaGo使用到了TPU,但数量只有 4 颗。(未完接下页)
•可以发现,真正用于人工智能的超级计算机芯片还只是处于CPU、GPU层,如何将更适用于网络神经算法的NPU、FPGA等芯片量产化并融合入超级计算机芯片矩阵,是在人工智能发展的第一阶段—技术驱动阶段应该重点努力的方向之一。
•云计算:与主要应用于密集型计算的超级计算机不同,云计算依靠其灵活的扩展能力主要应用于社交网络、企业IT建设和信息化等数据密集型、I/O密集型的领域。
•我们分析认为,当AI跨越入第二阶段—数据驱动阶段后,算法和计算力将变成人工智能领域的基础设施—“水、电、煤”。就目前看来,多项算法开源平台已将AI算法引入统一、公用阶段,运算力也必将向同样的趋势发展。云计算则是一个初步尝试,未来,计算力的发展方向或将是云计算和超级计算机技术结合,为企业提供既可密集运算又可灵活扩展的计算服务,将人工智能赋能全行业。
数据驱动:描绘个性化画像; 场景驱动:给予决策支持
•人工智能发展的第二个阶段,算法和计算力已基本不存在壁垒,数据将成为主要驱动力,推动人工智能更迭。此阶段,大量结构化、可靠的数据被采集、清洗和积累,甚至变现。例如,大量的数据基础上可以精确地描绘消费者画像,制定个性化营销方案,提高成单率,缩短达到预设目标的时间,推动社会运行效率提升。
•到了人工智能发展的第三个阶段,场景驱动作为主要驱动力,不仅可以针对不同用户做个性化服务,而且可在不同的场景下执行不同的决策。此阶段,对数据收集的维度和质量的要求更高,并且可实时根据不同的场景,制定不同的决策方案,推动事件向良好的态势发展,帮助决策者更敏锐的洞悉事件根本,产生更精准更智慧的决策。
1.3 巨头布局
国内外科技巨头在AI领域的布局
信息来源:根据公开资料整理
1.4 行业市场规模
资本扶持下,AI有望于2022年达到约700亿元的市场规模
•来自Venture Scanner的数据显示,2011-2016年AI行业的融资额年复合增长率为49%,而2017年仅第一季度AI行业全球融资额度就超过20亿美元,因此Venture Scanner预测2017年AI融资额将超过2016,成为近年来融资额度最高的年份。
数据来源:Venture Scanner,36氪研究院
•来自Statista的数据显示,2025年全球AI的市场规模预计为368亿美元。综合考虑了我国人工智能的爆发节点、技术成熟度等因素,我们认为保守估计最迟至2019年我国AI的市场规模将突破百亿元,而2022年这一数字应在接近700亿元左右。
数据来源:Statista,36氪研究院
2.1 AI产业链综述
AI产业链主要包括技术支撑层、基础应用层和方案集成层
•正如报告开头所述,人工智能是指使用机器代替人类实现认知、识别、分析、决策等功能,是一门综合了计算机科学、生理学、哲学的交叉学科。完整的人工智能产业链可以分为技术支撑层、基础应用层和方案集成层,或者说应用场景层。
•技术支撑层主要由AI芯片、传感器等硬件和算法模型(软件)和两部分构成。其中传感器与IoT的感知层相似,包括GPU、FPGA、NPU等在内的AI芯片负责运算,算法模型则负责训练数据。
•基础应用层的技术则是为了让机器完成对外部世界的探测,主要由计算机视觉、语音识别等感知层和语义识别等认知层构成,这些技术是机器能够做出分析判断的基础。此外,在感知与认知技术之下还有数据标注作为其底层支撑。
•方案集成层是集成了某种或多种基础应用技术的、面向如工业、自动驾驶、家居、仓储物流、金融、医疗等不同应用场景的产品或方案。 •本篇报告将主要围绕AI中基础应用层和方案集成层,即应用场景层进行分析。
人工智能产业链图
2.2 AI技术支撑层
数据标注——专注做淘金路上的卖水者,为语音、语义识别企业提供语料服务
•在语料数量方面,海天瑞声的语音库目前包含110+种语言,覆盖全球75个地区,其中包括多种稀有语种数据资源;场景丰富,包括车载语音、中英混读、儿童语音库、远场识别库等。目前,共储备超过50万个小时录音时长;60多种语言的发音词典,850万词条;拥有超过600个可授权使用的人工智能数据资源类产品。
•当大量的非结构化数据被Appen、海天瑞声这样的公司标注成为结构化数据之后,就能够为其他AI公司所用了。这些结构化的数据将主要被用来训练算法模型,然后应用到语音、语义、图像识别等技术领域以及安防、自动驾驶等应用场景。
•但由于目前的数据标注公司多数还是采用人工标注的方法,因此国外很多大公司选择自建团队完成数据标注的工作以保证准确度。此外,还有类似Amazon Mechanical Turk这样的众包平台也可以帮助AI公司完成数据标注的工作,但是这样通过众包方式完成的数据标注往往无法保证其准确性。
语音识别技术——过程虽存在难点,但目前技术已趋于成熟
•语音识别是将语音转换为文本的技术,是自然语言处理的一个分支。前台主要步骤分为信号搜集、降噪和特征提取三步,提取的特征在后台由经过语音大数据训练得到的语音模型对其进行解码,最终把语音转化为文本,实现达到让机器识别和理解语音的目的。根据公开资料显示,目前语音识别的技术成熟度较高,已达到95%的准确度。然而,需要指出的是,从95%到99%的准确度带来的改变才是质的飞跃,将使人们从偶尔使用语音变到常常使用。
•语音识别作为一种一维时域信号,在实际操作中主要有两个难点。首先是数据的获取、清洗。语音识别需要大量细分领域的标准化语料数据作为支撑,尤其是各地方言的多样性更是加大了语料搜集的工作量。据媒体消息,苹果iOS 10.3版本中Siri已支持上海话。
•第二个难点是语音特征的提取,目前主要通过具备多层神经网络的深度学习来解决,多层的神经网络相当于一个特征提取器,可对信号进行逐层深化的特征描述,最终从部分到整体,从笼统到具象,做到最大程度地还原信号原始特征。
语音识别技术——虽市场庞大但已出现领航者,留给创业公司的机会不多
•据Research and Markets研究报告显示,全球智能语音市场将持续显著增长,预计到2020年,全球语音市场规模预计将达191.7亿美元。根据Capvision报告显示,从语音行业市场份额角度来看,全球范围内,由Nuance领跑,国内则是科大讯飞占据主导地位。
来源:Capvision,36氪研究院
语音识别企业案例 - 科大讯飞
科大讯飞专注于To B的语音识别技术,目前已领跑中文语音市场
•科大讯飞创办于1999年,主要从事智能语音及语言技术、人工智能技术研究,软件及芯片产品的开发,而应用集成则由下游的开发商或客户自己完成。根据公开资料显示,科大讯飞是目前我国少数掌握核心技术的语音领域企业之一,已于2008年5月在深圳证券交易所挂牌上市。
•科大讯飞拥有六大核心技术,分别是语音识别、语音合、自然语言处理、语音评测、声纹识别和手写识别。其中更重要的是其同时拥有语音合成和语音识别,能够把“听”和“说”组合起来。此外科大讯飞还提出讯飞超脑计划,瞄准语音理解力市场。
来源:科大讯飞官网,36氪研究院
随着人工智能热度高涨,科大讯飞等企业技术得以规模性落地
•科大讯飞以讯飞超脑、AIUI 为内核,积极打造基于讯飞开放平台的AI 生态,面对不同场景,推出覆盖全行业的语音产品及服务,深耕智慧教育、智慧城市、智慧汽车、智慧医疗以及智慧家居五个行业,全方位挖掘G 端、B 端及C 端客户。
图示:科大讯飞主要客户举例
•随着全球范围内人工智能热度的高涨,语音识别作为其中重要的技术应用层落地项目也愈加多元化。科大讯飞在智慧教育、智慧城市、智能家居、智能汽车、机器人等领域规模化的应用,促进了其营收近几年内持续稳定走高,尤其是在教育行业,科大讯飞构建了智慧考试、智慧校园、智慧课堂、智慧学习等一体化的智慧教育产品体系,2017年智慧课堂产品有望成为其在教育行业收入和毛利的重要增长点。
语音识别企业案例 - Nuance&云
Nuance领衔全球市场,云知声重点布局家居领域
•从世界范围来看,Nuance是全球最大的独立语音识别公司之一。Nuance于1994年成立于美国麻省伯灵顿,并于2000年4月在纳斯达克上市。Nuance曾为苹果、三星提供语音支持服务,在语音识别领域一度处于垄断地位,后随深度算法的普及,各巨头逐渐开始自主研发语音识别技术,差距逐渐缩小。但直到今天,其发布的Dragon Drive(声龙驾驶)——互联汽车语音和内容平台,仍为众多知名车企提供着车载语音技术支持,如梅赛德斯-奔驰、戴姆勒、宝马、丰田、雷克萨斯、荣威等汽车品牌。
图示:声龙驾驶平台
•此外,还有重点布局家居领域的语音企业—云知声。云知声于2012年6月创办于北京,目前融资轮次为B+,是智能语音领域新锐玩家。据官方数据显示,云知声目前已覆盖了476个城市,覆盖用户超过1.8亿,代表客户有网易易信、锤子手机、乐视超级电视等。
语义识别技术——解决“听得懂”的语义识别领域中,新进入者仍具有一定机会
•语义识别是人工智能的重要分支之一,解决的是“听得懂”的问题。其最大的作用是改变人机交互模式,将人机交互由最原始的鼠标、键盘交互转变为语音对话的方式。此外,我们认为目前的语义识别行业还未出现绝对垄断者,新进入的创业公司仍具备一定机会。
人机交互的发展
•语义识别是自然语言处理(NLP)技术的重要组成部分。NLP在实际应用中最大的困难还是语义的复杂性,此外,深度学习算法也不是语义识别领域的最优算法。但随着整个AI行业发展进程加速,将为NLP带来长足的进步。
图示:NLP通用架构示意图
语义识别技术——拥有多样性的应用领域以及行业参与者
•我们认为,基于语音识别和语义识别的智能语音交互技术在车载场景中存在刚需,也会成为最先爆发的领域之一。并且,随着车联网的纵深化发展,相关硬件趋于免费,依靠语音交互天然流量入口,做个性化增值服务将是未来车载领域的主要盈利点。
图示:语音交互各场景主要玩家
•从1996年至今,国内至今仍在运营的人工智能公司接近400家1。从下图可看出,自然语言处理(NLP)无论在创业热度、获投数量还是获投金额都处于细分领域的前三。据 Global Market Insights数据,预计到2024年市场规模达到110亿美元。
来源:36氪研究院
语义识别技术——科技巨头乐衷于收购,小而美的企业更偏好细分场景
•科技巨头尤其是微软早在2008年就已开始布局语义技术领域。对于巨头来说,自主研发耗时久、投入高,同时效果也是未知的,直接收购是多数巨头选择的最快方式。
来源:公开资料收集
•关于语义识别领域的创业公司,国内代表企业有出门智能360、出门问问、三角兽、蓦然认知等。其中,三角兽的智能语音交互功能已被应用在Rokid、锤子手机、威马汽车等产品上。此外,由于自然语境和细分行业语境下,同一名词可能具备不同含义,因此除了行业通用型的语义识别公司之外,还存在一些深耕细分场景的公司,例如律师行业国外有基于IBM Watson的ROSS,国内有无讼、法律谷等。
-上期完-
注:关于人工智能的应用场景和投资趋势,请查看《All in AI ?它已经做好了颠覆人类的准备(下期)》