从头搭建机器学习平台--费时费力
医学影像是深度学习等人工智能相关技术在医疗健康领域应用最为迅猛的方向,作为深耕医学影像领域多年,长期关注技术趋势的企业,翼展在2016年也开始进行医学影像人工智能应用的研发。当时公有云厂商能够提供GPU实例的还非常少,并且性价比不太高,于是我们又走了一遍自己采购硬件搭建服务器的老路。先是配置了一台双Titan X卡的工作站小试牛刀,按照网上的教程一步步安装ubuntu,NVIDIA显卡驱动程序,CUDA,cuDNN,最后编译Caffe的时候发现库版本不对,又折腾了一圈重来。差不多捣鼓了一个礼拜才开始正式训练模型。后来上一个8卡的服务器,不敢再自己折腾了,操作系统和底层驱动都让第三方厂商给配置好。然而随着人员的增加,一方面机时分配不过来;另一方面机器学习框架的快速迭代,各种不同模型依赖的框架和库版本都不太一样,导致非常难于管理。尤其是2017年翼展开始布局医学影像人工智能开放协作平台后,我们需要部署的机器学习应用越来越多,手工方式的落后管理必然要被工程化管理所取代。虽然这个时候工程团队已经拥抱DevOps,有了Docker的运维经验,不过管理GPU云上实例及各种机器学习框架不同版本仍然是一个噩梦----直到NGC(NVIDIA GPU Cloud)的出现。
为了更好地落地AI产品,贴近临床,翼展医疗集团打造了人工智能开放协作平台,为人工智能企业和创业团队提供人工智能产品的发布和搭建平台,在云诊断平台集成各病种AI诊断工具,主要分为高端筛查及专项筛查两个方向,目前平台已上线十余种人工智能产品,包括用于血管壁分割及斑块成分分析的磁共振斑块成像解决方案、CT下肺结节筛查、DR胸肺常见疾病筛查、DR智能报告自动生成系统等,为合作医院及各类医疗机构提供了强大的支撑,降本增效,促进诊断能力极大提升。
同时,通过建立人工智能开放协作平台、在线云诊断平台、翼展医学影像诊断中心、影像医生集团、多病种早筛中心,打造了行业独有的多维生态进化体系,为人工智能产品提供了充足的落地应用场景,使其更加贴近临床,更好地服务于医生和患者,使得高精度远程诊疗成为现实,逐步帮助医疗资源均衡化。
机器学习团队面临的挑战
- 第一个挑战来自于团队内部成员的以及项目的增加。开始时,只有一个专职的深度学习科学家,可以在双卡工作站做小批量数据预训练,然后上服务器做大规模训练。本地和远程的环境都设置成一样就可以。后来随着团队成员的增加,既有Kaggle比赛冠军老手,又有刚入门才做过MNIST的实习生,就开始需要分配训练机时了。由于每个人的项目不一样,使用的模型不同,底层依赖的深度学习框架及库版本也不一致,一个统一的完全没有隔离的环境越来越不能满足日常训练的要求。曾经出现过的事故是,有模型需要将Python版本升级,升级之后导致其他人的模型无法正常工作了。我们设定了严格的规章制度,划分用户空间,每个人需要的Python执行环境、深度学习框架及第三方库都自行安装在自己的用户空间。对于显卡驱动程序及CUDA这样的底层库,则只能由管理员来进行安装和升级。升级前还得做好兼容性测试,一旦不同用户的模型有冲突则非常难解决。后来随着开始租用公有云的GPU实例,情况得到了一定程度的好转,不过在公有云上安装配置好环境依然费时费力。
-
2017年,翼展开始布局人工智能开放协作平台,为人工智能企业和创业团队提供医学影像人工智能产品发布和运行平台。这个平台需要接入不同产商的产品,有的产品是通过API接入的,后台深度学习模型的运行环境由产商自行维护,我们的工作还比较轻松;有的产商是直接将模型发布给我们,由翼展提供运行时环境,并且模型的迭代速度很快,新版本模型底层依赖版本也会相应变化,每次升级的操作都不是简单的部署一个新模型那么简单,还需要同时将运行时环境一并升级。而且工程团队通常至少需要同时维护一套测试环境和生产环境。由于在翼展云影远程诊断系统部署上了Docker的经验,我们自然想到了应用nvidia-docker来进行人工智能应用的部署。
NVIDIA GPU Cloud带来简单高效的解决方案
刚听到NVIDIA GPU Cloud的时候可能会误以为NVIDIA要卖公有云服务了。然而并不是:
NVIDIA GPU Cloud (NGC) 是针对深度学习和科学计算优化的基于GPU加速的云平台。在当前的发行版本中,NGC包含了NGC容器,NGC容器注册,NGC网站,以及用以运行深度学习容器的平台软件。
NGC容器
NGC容器旨在提供一个软件平台,这个平台基于最小的操作系统要求、安装在服务器或工作站上Docker和驱动,通过NGC容器注册里的NGC容器提供所有的应用程序和SDK软件。
NGC管理着一份目录,包含了完全集成和优化的深度学习框架容器,适用于单GPU以及多GPU配置环境。这些容器包括:CUDA 工具包,DIGITS工作流,以及以下深度学习框架:NVCaffe, Caffe2, Microsoft Cognitive Toolkit (CNTK), MXNet, PyTorch, TensorFlow, Theano 和 Torch。这些框架容器以开箱即可用的方式交付,包含了所有必须的依赖,比如CUDA运行时环境、NVIDIA库和运行系统环境。
每个框架容器镜像还包含了框架源代码,以支持用户自定义修改和增强功能,以及完整的软件开发栈。
NVIDIA每月更新这些深度学习的容器,以确保提供最佳性能。
在深度学习框架容器的基础上,NGC也提供了一系列高性能计算可视化应用容器,采用支持业界领先的可视化工具,包括集成了NVIDIA Index 立体体渲染的ParaView, NVIDIA OptiX 光线追踪库和NVIDIA Holodeck,以实现高质量可交互的实时视觉效果。这些容器目前处于公测阶段。
NGC也提供流行常用的第三方兼容GPU、符合NGC标准和最佳实践的高性能计算应用容器,使用户可以方便的在最短的时间内启动和运行起来。
这不正是我们一直在寻找的东西吗?看到这个介绍的时候,我们第一时间在NGC网站进行了注册,并且很快在自己的服务器上pull了一个NGC容器试用:
docker pull nvcr.io/nvidia/pytorch:18.04-py3
nvidia-docker run -it --rm -v local_dir:container_dir nvcr.io/nvidia/pytorch:18.04-py3
真的如NVIDIA GPU Cloud官方广告所说,“几分钟内即可开始创新,不需要数周时间”。当然首次下载镜像还是需要消耗一点时间,不过接下来的事情就变得非常轻松了,复杂的软件安装和配置ngc容器都帮你搞定,可以迅速启动你的训练任务。NVIDIA深度学习框架容器每月都会进行更新,想尝鲜的话pull一个新版本的镜像并且启动容器即可,无需担心安装新版本的软件会造成以前模型跑不起来的严重后果,更彻底摆脱了不同软件底层依赖库版本冲突(如果你担任过系统管理员,你一定知道我在说什么)。最重要的是,NGC可以在自建服务器上使用,也可以在阿里云等公有云上使用。
现在,有新的小伙伴加入要申请机器学习训练环境,或者有新的项目要启动,亦或有新的模型要部署,运维工程师只需要对方将深度学习框架的版本告知,然后在ngc网站找到对应的镜像,运行一个docker pull命令,然后就可以悠闲的去喝杯咖啡了。
将深度学习应用打包成nvidia-docker镜像
我们正在做的事情,是利用NGC的自定义容器功能,将自研的深度学习应用发布为nvidia-docker镜像,这样可以进一步简化应用部署,同时可以与工程团队其他项目共用一套持续集成及运维的流程。自己探路成功以后,亦会建议我们的合作伙伴将其应用发布为NGC自定义容器镜像,共同利用NGC这一平台加速医学影像人工智能应用的开发及部署。
一点局限
可以说NGC将深度学习开发运行环境所需要的一切软件依赖都通过一个nvidia-docker镜像打包在一起了,除了----NVIDIA显卡驱动。这是唯一还需要手动安装在宿主机上的组件。我们在使用NGC的过程中曾经遇到的一个问题是,某个镜像是会依赖一个指定版本的NVIDIA驱动程序的。当我们试图升级PyTorch镜像到18.11以便体验一下即将发布的PyTorch v1.0的新特性时,发现需要安装410.xx版本的驱动程序,而这个版本的驱动程序还没有针对Linux平台的发布(2018年11月底,目前已经提供了),这就尴尬😓了。
另外由于众所不知的原因,建议nvidia官网、nvidia开发者网站和ngc网站尽量不引入第三方网站的资源,或者做降级处理,不然会给国内开发者带来可访问性方面的问题。