【2023 · CANN训练营第一季】昇腾AI入门课(PyTorch)笔记
昇腾计算语言接口AscendCL
AscendCL的优势如下:
[if !supportLists]1. [endif] 高度抽象:算子编译、加载、执行的API归一,相比每个算子一个API,AscendCL大幅减少API数量,降低复杂度。
[if !supportLists]2. [endif]向后兼容:AscendCL具备向后兼容,确保软件升级后,基于旧版本编译的程序依然可以在新版本上运行。
[if !supportLists]3. [endif] 零感知芯片:一套AscendCL接口可以实现应用代码统一,多款昇腾处理器无差异。
PyTorch模型迁移——三种方法
•手工迁移
•脚本转换工具(msFmkTransplt)
•自动迁移(推荐)
手工迁移——Step1 迁移前的准备
关于分布式:由于NPU上的一些限制,PyTorch需要使用DistributedDataParallel(DDP),若原始代码使用的是DataParallel(DP)则需要修改为DDP,DP相应的一些实现例如torch.cuda.common,则可以替换为torch.distributed相关操作
关于混合精度:由于NPU天然的混合精度属性,我们需要使用apex对原始代码进行修改
手工迁移—— Step2 单P模型迁移
单P代码迁移的主要修改点
- 设备从cuda切换至npu
- torch.cuda. --> torch.npu.
手工迁移—— Step3 多P模型迁移
多P代码迁移的主要修改点
- “nccl” --> “hccl”
PyTorch模型迁移——脚本转换工具迁移
功能介绍
•脚本转换工具根据适配规则,对用户脚本给出修改建议并提供转换功能,大幅度提高了脚本迁移速度,降低了开发者的工作量。
•原脚本需要在GPU环境下且基于python3.7及以上能够跑通。
•脚本转换后的执行逻辑与转换前保持一致。
•此脚本转换工具当前支持PyTorch1.5.0和1.8.1版本的训练脚本转换。
PyTorch模型迁移——自动迁移(推荐)
使用方式——只需要增加一行
•from torch_npu.contrib import transfer_to_npu
AscendCL基础概念解析
Host&Device
Host:指与Device相连接的x86服务器、ARM服务器,会利用Device提供的NN(Neural-Network)计算能力,完成业务。
Device:指安装了芯片的硬件设备,利用PCIe接口与Host侧连接,为Host提供NN计算能力。若存在多个Device,多个Device之间的内存资源不能共享。
典型场景如在服务器上插Atlas300I设备:
将Atals 300I推理卡插入推理服务器(或个人PC)的主机中,此时程序的运行均在CPU侧进行控制,当需要进行专用计算(模型推理等)时,将CPU侧内存数据传输到NPU侧内存中,NPU侧完成专用计算后将数据回传至CPU侧。
CPU+内存所在这一侧,或者说,进程启动的这一侧,收集数据的这一侧,我们称之为“Host”侧;
NPU+Device所在这一侧,或者说,进行专用计算的这一侧,使用数据的这一侧,我们称之为“Device”侧
同步&异步
在AscendCL中当提及“同步&异步”的时候,都是站在调用者、执行者的角度来看的。
同步:当前线程发起一个方法调用,然后阻塞在调用点等待被调用方法执行完毕返回,再继续向下走。
异步:调用者向执行者下发一个任务之后,不等待任务执行完,而是立即返回往下走,暂且不管这个任务是否执行完毕。
把Stream理解为“任务队列”,另一层含义是在队列中任务的执行是保序的,即运行时环境会根据任务下发的顺序依次执行。异步执行需要知道(或者说确保)Stream中的任务都已经执行完毕了,此时需要以下接口确认Stream中任务全部执行完毕,调用这个接口的时候,线程会阻塞在调用点上,等待指定stream中所有任务全部执行完毕才会继续向下进行。