百度嵌入式深度学习框架Paddle-Mobile介绍

本篇内容介绍嵌入式深度学习的应用场景、Paddle-Mobile的特性优势以及使用开发方法，预计阅读时间4分钟

嵌入式深度学习有哪些应用

深度学习技术已经在互联网的诸多方向产生影响，关于深度学习和神经网络的讨论越来越多。深度学习技术在近几年得到飞速发展，各种互联网产品都争相应用深度学习技术，产品对深度学习的引入也更进一步地影响人们的生活。随着移动设备被广泛使用，在移动互联网产品应用深度学习和神经网络技术已经成为必然趋势。在移动端应用深度学习技术能够做出哪些惊艳的体验，是值得大家关注的首要问题。接下来我们来看下图像搜索中的一个功能，实时翻译。

实时翻译

打开简单搜索APP里左下角的图像搜索，设置好限定翻译垂类和语种，只要用手机对准想要翻译的文字的场景，就能够实时地给出翻译结果，并且将翻译结果完美地融合到你所看到的场景中。我们可以看到翻译结果的字体颜色以及贴图的背景色，都与真实场景是完全一致的。同时，即使你的手机移动或抖动，你所看到的整个融合后的翻译结果也依然是稳定的。

这个功能就应用到了前面提到的移动端深度学习技术，当然也用到了很多的计算机视觉相关技术，包括tracking、背景色处理等功能。

技术实现：第一点就是需要对文字进行背景色和前景色的提取，这里的颜色用来对翻译结果进行渲染，增强现实感；第二点就是提取文字区域的角点并进行光流追踪，这一步主要是用来实时更新翻译结果贴图的位置信息，随着手机移动，我们需要让翻译结果贴图始终贴合在他应该出现的位置。这里除了需要更新位置信息，我们还需要对翻译结果贴图进行透视变换，因为我们手机还会有旋转以及三维坐标系上各种角度的变化，这一步的透视变换就是为了得到一个透视变换矩阵，然后作用于翻译贴图，让贴图有同样的角度变化，大大增强了现实感。第三点就是对识别到的文字进行翻译，获取翻译结果。

视频流式搜索

这一功能基于业界首创的本地“多目标识别+粗分类识别”相结合的实时识别模型，第一次大规模使用移动端GPU进行深度学习计算。目前简单搜索的IOS端已经可以体验，2018年底将会上线百度APP的Android版。

实时检测取景框内的多个主体，并通过毫秒级响应的粗分类识别能力，快速告知用户各主体粗分类，从而帮助用户快速筛选拟识别主体。在出现识别结果后会标记多个目标，用户点击任何一个目标后都会快速出现搜索结果。

移动端深度学习遇到的问题

相比PC端，移动端设备的运算能力通常比较弱小，并且由于移动端的CPU需要将功耗指标维持在很低的水平，给性能指标的提升带来了制约。

Paddle-Mobile作为百度深度学习平台PaddlePaddle下的子项目，致力于嵌入式平台的深度学习预测。训练任务由 PaddlePaddle 在服务器端进行，Paddle-Mobile则破除深度学习落地嵌入式移动端平台的障碍。

Paddle-Mobile设计和PaddlePaddle保持了高度一致，能够直接运行PaddlePaddle新版训练的模型。同时针对嵌入式平台做了大量优化。嵌入式平台计算资源有限，体积敏感，用户过程中更加要求实时，所以我们必须针对各种嵌入式平台挖掘极限性能。

Paddle-Mobile的优势

目前支持 Linux-arm，IOS，Android，DuerOS 平台的编译和部署。它的最上层是一套非常简洁的预测 API，服务于百度众多 APP。

我们来看一下Paddle-Mobile 的架构。首先是底层针对各种硬件平台的优化，包括 CPU（主要是移动端的 ARM CPU）, GPU (包括 ARM的Mali，高通的Andreno以及苹果自研的GPU)，另外还有华为的NPU，powerVR，FPGA 等平台。 NPU 目前仍在合作中，未来会直接支持。在这一层，我们会针对各种平台实现优化后的算子，也称为 kernel，他们负责最底层的运算。

算法优化与模型压缩

算法优化包括降低算法本身复杂度，比如某些条件下的卷积操作，可以使用复杂度更低的 Winograd 算法，以及我们后面会提到的kernel融合等思想。

为了带来更高的计算性能和吞吐，端芯片通常会提供低位宽的定点计算能力。目前Paddle-Mobile已初步具备在ARM CPU上进行8bit定点预测的功能，在我们测试的模型中8bit定点通常会带来20%～50%的性能提升。

多软硬件覆盖

目前Paddle-Mobile已经实现和进行中的能力如下

01ARM CPU

ARM CPU计算深度学习任务是最基本通用的技术，使用也较为广泛。但是由于CPU计算能力相对偏弱，还要承担主线程的UI绘制工作，在APP中使用CPU计算深度学习计算任务压力较大。我们针对ARM CPU做了大量优化工作，但是随着硬件不断发展未来专有AI芯片和GPU将更加适合做这项任务。

02IOS GPU

IOS GPU使用metal支持直接编写，支持的系统范围向下到了IOS 9。这比coreml支持的范围有所扩大。目前该代码也已全面开放在Github。

03Mali GPU

Mali GPU在华为等主流机型中广泛存在，我们使用了OpenCL对Mali GPU做了Paddle模型支持。在较高端的Mali GPU上已经可以得到非常高的性能。

04Andreno GPU

Andreno GPU是高通设计的端侧GPU，同样基于OpenCL对其进行了优化实现。其高性能、低功耗的优势在Paddle-Mobile框架运行时得到了验证。

05 FPGA ZU系列

该项工作代码已经可以运行，在Github同样可以找到相关代码。对于ZU9和ZU5等开发板完全支持。FPGA的计算能力较强，深度学习功能可以在Github找到，感兴趣的工程师们可以去了解。

06 H5网页版深度学习支持

Paddle-Mobile正在实现底层基于WebGL的网页版深度学习框架。我们使用了ES6。后续会使用WebAssembly和WebGL并行融合的设计，在性能上进一步提高。该功能近期也会在Github开源，欢迎关注。

07 树莓派、RK3399等开发板

树莓派、RK3399系列等硬件在开发者中被大量用及，Paddle-Mobile同样做了支持，解决了很多问题，目前在其平台上的cpu版本一键编译即可完美运行。

体积小

Paddle-Mobile从设计之初就深入考虑到移动端的包体积的问题，cpu实现中没有外部依赖。

在编译过程中，如果该网络不需要的op是完全不会被打入的。同时编译选项优化也为体积压缩提供了帮助。Protobuf是主流框架使用的格式协议，如果放弃对Protobuf支持将给开发者带来转换模型的工作量，于是Paddle-Mobile团队将Protobuf生成文件重新精简逐行重写，拿到了一个只有几十k增长的protobuf体积。为开发者带来了一键运行的可行能力。

除了二进制体积，我们对代码体积极力避免过大，整个仓库的代码体积也非常小。

高性能CPU优化

针对 ARM CPU，我们会使用 ARM 汇编来实现 kernel 计算。在卷积神经网络中，卷积操作是耗时占比最大的部分，可能会占80%到0%。而卷积操作通常可以转化为两个矩阵的乘法，如何来优化通用矩阵乘法GEMM就是成为了关键中的关键。

Paddle-Mobile主要使用了以下技术

1. SIMD NEON优化技术

2. 片上缓存命中优化

3. 矩阵合理分块

4. Pld汇编指令优化

5. 循环展开

6. 重排流水线

GPU优化

CPU 和 GPU 的结构有着明显的区别， CPU每个核心仅有一个ALU算数逻辑单元，几个核心共享L2缓存。而 GPU 通常会有很多个ALU计算单元, 成百上千个计算单元并行计算。这种并行是非常适合于深度学习中的计算。Paddle-Mobile充分利用了手机平台的GPU对主流GPU几乎是全覆盖，包含了ios和android两大阵营中的GPU实现。未来，Paddle-Mobile将会以GPU为主，CPU为辅的思路发展。

另外，CPU 和 GPU 并不是用的同一块内存，大量数据计算时会有较大差异。因此我们使用了占用内存更小的数据类型。

内核融合

如今较为常见的深度学习框架都会将模型抽象为由一些基本运算单元组成的有向无环图，这些基本运算单元包括常见的卷积、池化以及各种激活函数等，在真正执行时这些OP会调用更底层的内核函数 kernel 来完成运算。通常情况下，一个复杂的模型会包含上千个OP，而这些OP在调用kerenl时都会产生内存IO。内核融合可以将一序列顺序执行的OP kernel进行合并，从而减少内存IO次数，并充分利用CPU的流水线技术。此外内核融合也可以降低计算复杂度，比如Convolution和Batch Normalization的融合。

如何使用&如何参与开发

Paddle-Mobile经过了多次版本迭代，CPU和GPU版本都运行在几亿级用户的百度APP和简单搜索APP。如此量级的APP产品的验证是对靠性的例证。同时Paddle-Mobile也在和华为合作，HiAI平台的深度实现会在后继放出。

支持的模型

目前Paddle-Mobile已经在多个平台有不同模型覆盖，下表表示目前已经支持的模型范围。空白区域也是接下来会补齐的模型。

模型获取

深度学习技术离不开模型支持，Paddle-Mobile支持的是PaddlePaddle模型规范。模型的获取主要通过以下途径获得。

1. 如果你只是用来测试，对效果要求不高。测试模型和测试图片下载地址如下：

http://mms-graph.bj.bcebos.com/paddle-mobile%2FmodelsAndImages.zip

2. 若想有更好的效果独立训练模型，可以直接使用Paddle Fluid训练，该方式最为可靠，推荐方式。

3. 如果你手中的模型是其他框架训练的模型，需要进模型转换才可以运行。比如将caffe的模型转为Paddle Fluid的模型可以参考如下链接：

https://github.com/PaddlePaddle/models/tree/develop/fluid/PaddleCV/caffe2fluid

编译及开发

Paddle-Mobile框架所需要的测试模型已经在github完全免费公布，为开发者进一步使用提供便利。由于大量UI工程师对性能和底层优化有一定困扰，Paddle-Mobile的编译过程极其简单。以Android平台为例。在安装好cmake和ndk以后进入项目根目录，直接可以如下命令编译：

cd tools

sh build.sh android

如果我们已经明确自己的模型，同时想要更小的体积可以：

sh build.sh android googlenet

这样就不会打入开发者不需要的依赖，体积进一步减小。

设计文档，主要分为IOS、Android、FPGA、arm_linux等文档，在Readme和

https://github.com/PaddlePaddle/paddle-mobile

首页中都有相关链接，其中包含大量设计和开发过程所需要的资料。

总结

Paddle-Mobile做为国内全面支持各大平台的移动端深度学习框架，以移动端特点出发，针对性做了大量的优化、平台覆盖工作，并且保持了高性能、体积小等诸多优势。为对中国开发者更友好，中文文档被重点维护，有任何问题都可以到Github发issue。也欢迎相关爱好者加入开发为移动端深度学习的发展贡献力量。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,530评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 86,403评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,120评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,770评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,758评论 5赞 367
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,649评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,021评论 3赞 398
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,675评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,931评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,659评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,751评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,410评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,004评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,969评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,042评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,493评论 2赞 343

百度嵌入式深度学习框架Paddle-Mobile介绍

推荐阅读更多精彩内容