NVIDIA GPU Cloud加速医学影像机器学习模型开发及应用部署

从头搭建机器学习平台--费时费力

医学影像是深度学习等人工智能相关技术在医疗健康领域应用最为迅猛的方向，作为深耕医学影像领域多年，长期关注技术趋势的企业，翼展在2016年也开始进行医学影像人工智能应用的研发。当时公有云厂商能够提供GPU实例的还非常少，并且性价比不太高，于是我们又走了一遍自己采购硬件搭建服务器的老路。先是配置了一台双Titan X卡的工作站小试牛刀，按照网上的教程一步步安装ubuntu，NVIDIA显卡驱动程序，CUDA，cuDNN，最后编译Caffe的时候发现库版本不对，又折腾了一圈重来。差不多捣鼓了一个礼拜才开始正式训练模型。后来上一个8卡的服务器，不敢再自己折腾了，操作系统和底层驱动都让第三方厂商给配置好。然而随着人员的增加，一方面机时分配不过来；另一方面机器学习框架的快速迭代，各种不同模型依赖的框架和库版本都不太一样，导致非常难于管理。尤其是2017年翼展开始布局医学影像人工智能开放协作平台后，我们需要部署的机器学习应用越来越多，手工方式的落后管理必然要被工程化管理所取代。虽然这个时候工程团队已经拥抱DevOps，有了Docker的运维经验，不过管理GPU云上实例及各种机器学习框架不同版本仍然是一个噩梦----直到NGC（NVIDIA GPU Cloud）的出现。

为了更好地落地AI产品，贴近临床，翼展医疗集团打造了人工智能开放协作平台，为人工智能企业和创业团队提供人工智能产品的发布和搭建平台，在云诊断平台集成各病种AI诊断工具，主要分为高端筛查及专项筛查两个方向，目前平台已上线十余种人工智能产品，包括用于血管壁分割及斑块成分分析的磁共振斑块成像解决方案、CT下肺结节筛查、DR胸肺常见疾病筛查、DR智能报告自动生成系统等，为合作医院及各类医疗机构提供了强大的支撑，降本增效，促进诊断能力极大提升。
同时，通过建立人工智能开放协作平台、在线云诊断平台、翼展医学影像诊断中心、影像医生集团、多病种早筛中心，打造了行业独有的多维生态进化体系，为人工智能产品提供了充足的落地应用场景，使其更加贴近临床，更好地服务于医生和患者，使得高精度远程诊疗成为现实，逐步帮助医疗资源均衡化。

医学影像人工智能开放协作平台架构

机器学习团队面临的挑战

第一个挑战来自于团队内部成员的以及项目的增加。开始时，只有一个专职的深度学习科学家，可以在双卡工作站做小批量数据预训练，然后上服务器做大规模训练。本地和远程的环境都设置成一样就可以。后来随着团队成员的增加，既有Kaggle比赛冠军老手，又有刚入门才做过MNIST的实习生，就开始需要分配训练机时了。由于每个人的项目不一样，使用的模型不同，底层依赖的深度学习框架及库版本也不一致，一个统一的完全没有隔离的环境越来越不能满足日常训练的要求。曾经出现过的事故是，有模型需要将Python版本升级，升级之后导致其他人的模型无法正常工作了。我们设定了严格的规章制度，划分用户空间，每个人需要的Python执行环境、深度学习框架及第三方库都自行安装在自己的用户空间。对于显卡驱动程序及CUDA这样的底层库，则只能由管理员来进行安装和升级。升级前还得做好兼容性测试，一旦不同用户的模型有冲突则非常难解决。后来随着开始租用公有云的GPU实例，情况得到了一定程度的好转，不过在公有云上安装配置好环境依然费时费力。
2017年，翼展开始布局人工智能开放协作平台，为人工智能企业和创业团队提供医学影像人工智能产品发布和运行平台。这个平台需要接入不同产商的产品，有的产品是通过API接入的，后台深度学习模型的运行环境由产商自行维护，我们的工作还比较轻松；有的产商是直接将模型发布给我们，由翼展提供运行时环境，并且模型的迭代速度很快，新版本模型底层依赖版本也会相应变化，每次升级的操作都不是简单的部署一个新模型那么简单，还需要同时将运行时环境一并升级。而且工程团队通常至少需要同时维护一套测试环境和生产环境。由于在翼展云影远程诊断系统部署上了Docker的经验，我们自然想到了应用nvidia-docker来进行人工智能应用的部署。

医学影像人工智能开放协作平台应用涉及疾病领域

NVIDIA GPU Cloud带来简单高效的解决方案

刚听到NVIDIA GPU Cloud的时候可能会误以为NVIDIA要卖公有云服务了。然而并不是：

NVIDIA GPU Cloud (NGC) 是针对深度学习和科学计算优化的基于GPU加速的云平台。在当前的发行版本中，NGC包含了NGC容器，NGC容器注册，NGC网站，以及用以运行深度学习容器的平台软件。

NGC容器

NGC容器旨在提供一个软件平台，这个平台基于最小的操作系统要求、安装在服务器或工作站上Docker和驱动，通过NGC容器注册里的NGC容器提供所有的应用程序和SDK软件。
NGC管理着一份目录，包含了完全集成和优化的深度学习框架容器，适用于单GPU以及多GPU配置环境。这些容器包括：CUDA 工具包，DIGITS工作流，以及以下深度学习框架：NVCaffe, Caffe2, Microsoft Cognitive Toolkit (CNTK), MXNet, PyTorch, TensorFlow, Theano 和 Torch。这些框架容器以开箱即可用的方式交付，包含了所有必须的依赖，比如CUDA运行时环境、NVIDIA库和运行系统环境。
每个框架容器镜像还包含了框架源代码，以支持用户自定义修改和增强功能，以及完整的软件开发栈。
NVIDIA每月更新这些深度学习的容器，以确保提供最佳性能。
在深度学习框架容器的基础上，NGC也提供了一系列高性能计算可视化应用容器，采用支持业界领先的可视化工具，包括集成了NVIDIA Index 立体体渲染的ParaView, NVIDIA OptiX 光线追踪库和NVIDIA Holodeck，以实现高质量可交互的实时视觉效果。这些容器目前处于公测阶段。
NGC也提供流行常用的第三方兼容GPU、符合NGC标准和最佳实践的高性能计算应用容器，使用户可以方便的在最短的时间内启动和运行起来。

NVIDIA GPU Cloud

这不正是我们一直在寻找的东西吗？看到这个介绍的时候，我们第一时间在NGC网站进行了注册，并且很快在自己的服务器上pull了一个NGC容器试用:

docker pull nvcr.io/nvidia/pytorch:18.04-py3
nvidia-docker run -it --rm -v local_dir:container_dir nvcr.io/nvidia/pytorch:18.04-py3

真的如NVIDIA GPU Cloud官方广告所说，“几分钟内即可开始创新，不需要数周时间”。当然首次下载镜像还是需要消耗一点时间，不过接下来的事情就变得非常轻松了，复杂的软件安装和配置ngc容器都帮你搞定，可以迅速启动你的训练任务。NVIDIA深度学习框架容器每月都会进行更新，想尝鲜的话pull一个新版本的镜像并且启动容器即可，无需担心安装新版本的软件会造成以前模型跑不起来的严重后果，更彻底摆脱了不同软件底层依赖库版本冲突（如果你担任过系统管理员，你一定知道我在说什么）。最重要的是，NGC可以在自建服务器上使用，也可以在阿里云等公有云上使用。

现在，有新的小伙伴加入要申请机器学习训练环境，或者有新的项目要启动，亦或有新的模型要部署，运维工程师只需要对方将深度学习框架的版本告知，然后在ngc网站找到对应的镜像，运行一个docker pull命令，然后就可以悠闲的去喝杯咖啡了。

将深度学习应用打包成nvidia-docker镜像

我们正在做的事情，是利用NGC的自定义容器功能，将自研的深度学习应用发布为nvidia-docker镜像，这样可以进一步简化应用部署，同时可以与工程团队其他项目共用一套持续集成及运维的流程。自己探路成功以后，亦会建议我们的合作伙伴将其应用发布为NGC自定义容器镜像，共同利用NGC这一平台加速医学影像人工智能应用的开发及部署。

一点局限

可以说NGC将深度学习开发运行环境所需要的一切软件依赖都通过一个nvidia-docker镜像打包在一起了，除了----NVIDIA显卡驱动。这是唯一还需要手动安装在宿主机上的组件。我们在使用NGC的过程中曾经遇到的一个问题是，某个镜像是会依赖一个指定版本的NVIDIA驱动程序的。当我们试图升级PyTorch镜像到18.11以便体验一下即将发布的PyTorch v1.0的新特性时，发现需要安装410.xx版本的驱动程序，而这个版本的驱动程序还没有针对Linux平台的发布（2018年11月底，目前已经提供了），这就尴尬😓了。
另外由于众所不知的原因，建议nvidia官网、nvidia开发者网站和ngc网站尽量不引入第三方网站的资源，或者做降级处理，不然会给国内开发者带来可访问性方面的问题。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,602评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,442评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,878评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,306评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,330评论 5赞 373
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,071评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,382评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,006评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,512评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,965评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,094评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,732评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,283评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,286评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,512评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,536评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,828评论 2赞 345