郑文盼 16020150021
【嵌牛导读】指数增长的数据量和逐渐陷入瓶颈的芯片性能,二者的不匹配会带来芯片架构的根本性改变。而这种改变,可能将会是颠覆性的改变。
【嵌牛鼻子】芯片架构,人工智能
【嵌牛提问】芯片怎样改变才能使性能适应日益增长的需求?
【嵌牛正文】
人工智能倒逼芯片底层的真正变革
研究人类的科技发展史,发现科技的进步速度呈现指数型加速态势。尤其在1950年以后进入芯片时代,摩尔定律推动下的每18个月“芯片晶体管同比例缩小一半”带来的性能提升以倍数计。每一次加速的过程推动,都引发了产业的深层次变革,带动从底层到系统的阶跃。我们本篇报告将着重从底层芯片角度出发,探讨人工智能芯片带来的深层次变革。
计算芯片的架构50多年来都没有发生过本质上的变化,请注意计算架构的决定是资源的组织形式。而传统的冯诺伊曼是采取控制流架构,采用的是线性的记忆体和布尔函数作为基线计算操作。处理器的架构基于流水线串行处理的机制建立,存储器和处理器分离,流水线的计算过程可以分解为取指令,执行,取数据,数据存储,依次循环。依靠整个串行的过程,逻辑清晰,但性能的提升通过两种方式,一是摩尔定律下推动下晶体管数量的增多实现性能倍增;二是通过并行多个芯片核来实现。无论何种方式,本质上都是线性的性能扩张。
人工智能芯片根据数据流的碎片化和分布式而采取神经网络计算范式,特征在于分布式的表示和激活模式。变量由叠加在共享物理资源上的向量表示,并且通过神经元的激活来进行计算。以神经元架构实现深度学习人工智能的临界点实现主要原因在于:数据量的激增和计算机能力/成本。
深度学习以神经元为架构。从单一的神经元,再到简单的神经网络,到一个用于语音识别的深层神经网络。层次间的复杂度呈几何倍数的递增。数据量的激增要求的就是芯片计算能力的提升。
计算的体系处于碎片化引发架构变革。数据的扩张远大于处理器性能的扩张,依靠处理器性能在摩尔定律推动下的提升的单极世界已经崩溃,处理器性能提升的速度并不足以满足AI所需的应用程序的需求。大量数据消耗的数字运算能力比几年前所有数据中心加起来还要多。
基于摩尔定律的机器时代的架构——从Wintel到AA
Intel与Windows结合构建PC生态 ,本质上诞生了软硬件结合的机器时代。而在其基础上的延升, 2010后苹果带来的智能手机引发的ARM与Android生态,将机器与人的结合拓展到了移动端。我们回顾历史上的芯片架构历史,认为冯诺伊曼架构带来了计算体系的建立并通过Intel实现了最大化;ARM通过共享IP的商业模式带来了更开放的生态体系,实现了软硬件的结合延伸了人类的触角。
观察Intel和ARM的黄金十年,站在现在时点往后看,我们提出以下观点:过去十年以下游的应用驱动设计公司的成长转换为由设计公司主导应用正在发生。从需求层面看企业成长空间。类似90年代的PC和10年的智能手机带来的亿级大空间增量市场将很容易推动企业的快速增长。设计企业能够在成长轨迹上实现跨越式突破的可能性来自于赛道的选择。但站在现在时点看,人工智能是确定性的方向,在所有已有领域的人工智能渗透,都将极大的改变人类的生活。处于最前沿的芯片公司的革新正在以此而发生,重新定义底层架构的芯片,从上游推动行业的变革。在并没有具体应用场景爆发之前已经给予芯片公司充分的高估值就是认可设计公司的价值。
2.1. Intel——PC时代的王者荣耀
本节重点阐述Intel公司在X86时代的芯片架构产品以及此架构下公司以及行业的变化。
2.1.1. Intel公司简介
Intel是一家成立于1968年的半导体制造公司,总部位于美国加州。随着个人电脑的普及和全球计算机工业的日益发展,公司逐渐发展成为全球最大的微处理器及相关零件的供应商。公司在2016年实现营业收入594亿美元,世界500强排名158。
公司分为PC客户端部门、数据中心部门、物联网、移动及通讯部门、软件及服务运营,其他还有笔记本部门、新设备部门及NVM解决方案部门。公司主要营业收入来自于PC客户部门,其次是数据中心部门。公司的主要产品X86处理器占主导地位,接近90%,包括苹果在2006年放弃PowerPC改用英特尔的x86 processors。
回顾Intel 90年代至今发展历程,清晰看到90年代是Intel发展最快的阶段并在2000年前后达到了峰值。显而易见的原因是个人电脑的快速普及渗透。而遵从摩尔定律的每一代产品的推出,叠加个人电脑快速渗透的乘数效应,持续放大了企业的市值,类似于戴维斯双击,推动股价的一路上扬。
冯诺伊曼架构带来了计算体系的建立并通过Intel实现了最大化,但从本质上说,英特尔参与的是机器时代的兴起和计算芯片价值体现。但时至今日,在人口红利消散,PC渗透率达到稳定阶段,依托于PC时代的处理器芯片进入了稳定常态。英特尔在总产品收入提升的情况下,PC端提供的收入增长机会停滞。处理器依靠摩尔定律不断推经延续生命力,但在应用增长乏力的阶段缺乏爆发式的再增长。PC时代的处理器设计遵从了下游应用驱动上游芯片的实质。
进入2010年后,英特尔的处理器增速同半导体行业基本协同一致,毫无疑问超越行业增速的增长已经需要新的应用拉动。摩尔定律支撑了10多年的快速增长再出现边际改善的增长需要重新审视。
2.2. ARM——开放生态下移动时代的新王加冕
本节重点阐述ARM在移动时代的芯片架构产品以及此架构下公司以及行业的变化。
2.2.1. ARM公司简介
ARM公司是全球领先的半导体知识产权 (IP) 提供商,专门从事基于RISC技术芯片设计开发,并因此在数字电子产品的开发中处于核心地位。公司的前身Acorn于1978年在伦敦正式成立。1990年ARM从Acorn分拆出来。得益于20世纪90年代手机的快速发展,基于ARM技术的芯片出货量飞速增长,并于2017年宣布正式达成1000亿芯片出货量的里程碑。2016年7月,日本软银以320亿美元收购ARM。
ARM本身不直接从事芯片生产,只设计IP,包括指令集架构、微处理器、图形核心和互连架构,依靠转让设计许可由合作公司生产各具特色的芯片,目前它在世界范围有超过1100个的合作伙伴。
ARM的创新型商业模式为公司带来了丰厚的回报率:它既使得ARM技术获得更多的第三方工具、制造、软件的支持,又使整个系统成本降低,使产品更容易进入市场被消费者所接受,更具有竞争力。正因为ARM的IP多种多样以及支持基于ARM的解决方案的芯片和软件体系十分庞大,全球领先的原始设备制造商 (OEM) 都在广泛使用ARM技术,因此ARM得以在智能手机、平板上一枝独秀,全世界超过95%的智能手机都采用ARM架构。
ARM沿用了冯诺伊曼架构,在性能和功耗上做到了更加平衡。在底层架构没有发生根本性 变革的情况下,在架构的横向延伸上寻找到了技术的转换,从而实现了智能手机时代移动端的产品阶跃。
处理器架构在根源上看ARM延续了X86的底层架构。正如我们在之前讨论架构时指出,处理器一般分为取指令,译码,发射,执行,写回五个步骤。而我们说的访存,指的是访问数据,不是指令抓取。访问数据的指令在前三步没有什么特殊,在第四步,它会被发送到存取单元,等待完成。与X86不同的是在指令集方面,ARM架构过去称作进阶精简指令机器(Advanced RISC Machine),更早时期被称作Acorn RISC Machine,是32位精简指令集(RISC)处理器架构,被广泛地使用在嵌入式系统设计中。在应用场景上有所不同。
ARM指令集架构的主要特点:一是体积小、低功耗、低成本、高性能,因此ARM处理器非常适用于移动通讯领域;二是大量使用寄存器且大多数数据操作都在寄存器中完成,指令执行速度更快;三是寻址方式灵活简单,执行效率高;四是指令长度固定,可通过多流水线方式提高处理效率。
ARM的商业模式值得真正的关注。ARM通过授权和版税来赚取收入。使用ARM的授权,跟据流片的次数,可以付一次流片的费用,也可以买三年内无限次流片,更可以永久买断。芯片量产后,根据产量,会按百分比收一点版税。Intel通过售卖自己的芯片来赢得终端客户和市场,而ARM则是通过授权让全世界的芯片制造商使用自家的产品来推广。ARM的商业模式之所以在智能手机时代能够推广,是因为移动端的生态更为开放,自上而下的生态建立,不仅是芯片开发者,也包括软件开发者,都被构建在生态的范围内。
智能移动设备上包含多件ARM的处理器/技术,每当智能手机上新增一个功能时,就为新的ARM知识产权带来了新的机会。2016年,ARM在移动应用处理器(包括智能手机、平板电脑和笔记本电脑)上,根据量的测算,其市场份额高达90%,同时ARM估计移动应用处理器规模将从2016年的200亿美元增长到2025年的300亿美元。
人工智能芯片——新架构的异军突起
首先我们必须描述人工智能对芯片的诉求,深度学习的目标是模仿人类神经网络感知外部世界的方法。深度学习算法的实现是人工智能芯片需要完成的任务。在算法没有发生质变的前提下,追根溯源,所有的加速器芯片都是为了实现算法而设计。
我们整理了人工智能芯片相关的类型和产业链公司,传统的芯片厂商/生态的建立者/新进入者。 传统的芯片制造厂商:Intel,Nvidia和AMD。他们的优势在于在已有架构上对人工智能的延伸,对于硬件的理解会优于竞争对手,但也会困顿于架构的囹圄;2 上层生态的构建者进入芯片设计,比如苹果和Google,优势在于根据生态灵活开发定制各类ASIC,专用性强;新进入者,某些全新的架构比如神经网络芯片的寒武纪,因为是全新的市场开拓,具有后发先至的可能。新进入者的机会,因为是个全新的架构机会,将有机会诞生独角兽。
3.1. GPU——旧瓶装新酒
GPU使用SIMD(单指令多数据流)来让多个执行单元以同样的步伐来处理不同的数据,原本用于处理图像数据,但其离散化和分布式的特征,以及用矩阵运算替代布尔运算适合处理深度学习所需要的非线性离散数据。作为加速器的使用,可以实现深度学习算法。但注意的是,GPU架构依然基于冯诺伊曼。
我们以GPU和CPU的对比来说明GPU所具有的架构特点。GPU由并行计算单元和控制单元以及存储单元构成GPU拥有大量的核(多达几千个核)和大量的高速内存,擅长做类似图像处理的并行计算,以矩阵的分布式形式来实现计算。同CPU不同的是,GPU的计算单元明显增多,特别适合大规模并行计算。
GPU的特征决定了其特别适合做训练。机器学习的广泛应用: 海量训练数据的出现以及 GPU 计算所提供的强大而高效的并行计算。 人们利用 GPU 来训练这些深度神经网络,所使用的训练集大得多,所耗费的时间大幅缩短,占用的数据中心基础设施也少得多。 GPU 还被用于运行这些机器学习训练模型,以便在云端进行分类和预测,从而在耗费功率更低、占用基础设施更少的情况下能够支持远比从前更大的数据量和吞吐量。
与单纯使用CPU的做法相比,GPU具有数以千计的计算核心、可实现10-100倍应用吞吐量,因此GPU已经成为数据科学家处理大数据的处理器。
NVIDIA是一家以设计GPU芯片为主业的半导体公司,其主要产品从应用领域划分,包括GPU(如游戏图形处理器GeForce GPU,深度学习处理器Tesla,图形处理器GRID等)和Tegra Processor(用于车载,包括DRIVE PX和SHIELD)等。GPU芯片构成公司最主要收入来源,2017年上半年,GPU贡献收入34.59亿美元,占公司总收入的83%;Tegra Processor贡献收入6.65亿美元,占比16%,其他部分贡献收入1%。
公司业绩稳定,营业收入除2013年略有下降外,2012-2016年均实现稳步增长,从42.80亿美元增至69.10亿美元,CAGR为10.05%;2016年公司实现净利16.66亿美元,相较于2012年的5.63亿美元,CAGR达24.23%。毛利润方面,公司毛利润从2012年的22.26亿美元增至2016年的40.63亿美元,实现稳步增长,毛利率维持在50%以上。
FPGA是用于解决专用集成电路的一种方案。专用集成电路是为特定用户或特定电子系统制作的集成电路。人工智能算法所需要的复杂并行电路的设计思路适合用FPGA实现。FPGA计算芯片布满“逻辑单元阵列”,内部包括可配置逻辑模块,输入输出模块和内部连线三个部分,相互之间既可实现组合逻辑功能又可实现时序逻辑功能的独立基本逻辑单元。
注意FPGA与传统冯诺伊曼架构的最大不同之处在于内存的访问。FPGA在本质上是用硬件来实现软件的算法,因此在实现复杂算法方面有一些难度。
FPGA相对于CPU与GPU有明显的能耗优势,主要有两个原因。首先,在FPGA中没有取指令与指令译码操作,在Intel的CPU里面,由于使用的是CISC架构,仅仅译码就占整个芯片能耗的50%;在GPU里面,取指令与译码也消耗了10%~20%的能耗。其次,FPGA的主频比CPU与GPU低很多,通常CPU与GPU都在1GHz到3GHz之间,而FPGA的主频一般在500MHz以下。如此大的频率差使得FPGA消耗的能耗远低于CPU与GPU。
根据Altera内部文件显示,Altera很早就在研发使用FPGA针对深度学习算法的应用,并在2015年Intel的论坛上展示了产品的性能。结论是在功耗和性能上相对同等级的CPU,有较大的优势。CPU+FPGA在人工智能深度学习领域,将会是未来的一个重要发展方向
ASIC(专用定制芯片)是为实现特定要求而定制的芯片,具有功耗低、可靠性高、性能高、体积小等优点,但不可编程,可扩展性不及FPGA,尤其适合适合高性能/低功耗的移动端。目前,VPU和TPU都是基于ASIC架构的设计。
我们梳理针对图像和语音这两方面的人工智能定制芯片,目前主要有专用于图像处理的VPU,以及针对语音识别的FAGA和TPU芯片。
3.3.1. VPU——你是我的眼
VPU是专门为图像处理和视觉处理设计的定制芯片。根据特定算法来实现定制化的芯片架构,实现特定的图像处理能力,提高效率,是VPU的基础理念。集成在摄像头中的VPU,直接对输入图像进行识别理解,消除了存储器的读写操作。相较主流的移动处理芯片(集成 GPU 的 SoC),VPU 的尺寸更小,视觉处理运算的效能更高。
以Movidiu公司产品Myriad2为例,VPU芯片包括接口电路(Interfaces)、硬件加速器(Hardware Accelerators),矢量处理器阵列(Array of Vector Processors),精简指令集的CPU(RISC CPU)等部分。接口电路支持多路摄像头传感器等外部设备,硬件加速器可以迅速的提高运算处理速度,矢量处理器阵列专门针对机器视觉,精简指令集的CPU(RISC CPU)主要进行任务分配。
目前,VPU的应用市场有机器人、物联网、智能穿戴设备、智能手机、无人驾驶、无人机等。
TPU(Tensor Processing Unit)是谷歌的张量处理器,它是一款为机器学习而定制的芯片,经过了专门深度机器学习方面的训练,它有更高效能。
从底层架构的变革角度看,最前沿的革新以深度学习原理打造的人工神经网络芯片。人工神经网络是模仿生物神经网络的计算架构的总称,由若干人工神经元节点互连而成,神经元之间通过突触连接。每个神经元其实是一个激励函数,突触则是记录神经元间联系的强弱权值。
神经网络是多层的,一个神经元函数的输入由与其相连的上一个神经元的输出以及连接突触权重共同决定。所谓训练神经网络,就是通过不断自动调整神经元之间突触权重的过程,直到输出结果稳定正确。然后在输入新数据时,能够根据当前的突触权重计算出输出结果。以此来实现神经网络对已有知识的“学习”。神经网络中存储和处理是一体化的,中间计算结果化身为突触的权重。
冯诺伊曼架构的传统处理器处理神经网络任务时效率低下,是由其本身的架构限制决定的。冯诺伊曼架构存储和处理分离,基本运算为算术和逻辑操作,这两点决定了一个神经元的处理需要成百上千条指令才能完成。以AlphaGo为例,总共需要1202个CPU+176个CPU。
真正打造的类脑芯片,寒武纪试图将通过低功耗高性能的架构重塑,颠覆已有的冯诺伊曼架构,实现在移动端/云端的加速器实现。
我们在前二章重点讨论了Intel和ARM的历史发展,认为冯诺伊曼架构带来了计算体系的建立并通过Intel实现了最大化;ARM通过共享IP的商业模式带来了更开放的生态体系,实现了软硬件的结合延伸了人类的触角。同时我们认为人工智能芯片将有可能在摩尔定律放缓维度下引发芯片底层架构重构的变革。
本章我们重点讨论人工智能芯片的市场空间测算,我们从两个维度来进行估算,给出详细的拆解。
维度一:市场规模反推芯片空间
根据Nvidia官方给出的资料统计,到2020年,由软件、硬件、服务三者组成的人工智能市场将达到400亿美元,其中硬件占到1/3强,为160亿美元。而硬件的核心是芯片。我们估算硬件的BOM,芯片会占到60%,芯片空间将达到96亿美元。
人工智能芯片从用途来看,分为云端加速器芯片和终端(包括智能手机、无人驾驶汽车、)智能芯片。我们基于这两个场景,给出结论,预测至2021年,人工智能芯片市场有望达到111亿美元,CAGR达20.99%。
具体来看云端方面,根据Gartner的统计,到 2020 年,全球云计算市场规模将达到 3834亿美元,其中,云基础设施服务市场规模达863.5亿美元。
终端方面,目前人工智能芯片主要应用领域是智能手机、无人驾驶汽车和无人机。我们假设:
1)智能手机全球出货量年均增速3.3%,主处理器平均价格15美元,带人工智能芯片模块占智能手机主处理器BOM的10%
2)带人工智能功能的智能手机渗透率从2018的10%提升到2020年的40%。;
3)无人驾驶汽车市场规模年均增速10%。因无人驾驶汽车以及其芯片市场均尚未成型,目前成本较高,我们假设芯片成本占总成本的20%,人工智能芯片占处理器成本的10%。据此预测终端领域人工智能芯片的市场规模。
据此我们预测,在终端领域,至2021年,全球人工智能芯片市场规模由2016年的3.05亿美元增至5.55亿美元,CAGR为10.49%。其中,智能手机市场中,人工智能芯片由2016年的2.25亿美元增至2021年的4.26亿美元,CAGR为11.24%;无人驾驶汽车市场中,人工智能芯片由2016年的0.80亿美元增至2021年的1.29亿美元,CAGR为8.27%。
台积电:无论是何种架构的人工智能芯片,都是依赖于台积电最先进制程的代工工艺,在全球只有台积电能够提供HPC(高性能计算芯片)的工艺平台上,行业的卡位优势已然确立,确定性受益标的。
Intel:收购Altera,收购Movidius,CPU+FPGA方案,Intel在人工智能领域的布局长远,而通过我们的测算,服务器端将是人工智能芯片未来行业渗透和消耗的重点,而Intel在服务器端已经有深厚不可撼动的优势。
NVIDIA:目前人工智能芯片领域的领跑者,深度学习训练领域的唯一方案选择。有完整的生态布局,针对云端+汽车自动驾驶,百亿美元新增市场的竞争者。
寒武纪:寒武纪试图将代表性智能算法的处理速度和性能功耗比提升一万倍,在移动端实时完成图像语音和文本的理解和识别,更为重要的是通过实时训练,还能不断进化提升能力,真正实现超越。
富瀚微:国内上市公司智能视频监控领域的前端芯片方案解决商,在前端芯片集成一定的智能算法功能处理。
北京君正:积极进入视频监控领域的芯片方案解决商,曾经的MIPS方案芯片设计商,有芯片架构层基因,对标Movidius。
全志科技:SoC芯片方案解决商,未来能将AI算法模块嵌入SoC之中。