GPU 的特点
1. 主要处理简单的任务
比如矩阵变化、光照计算等等
2. 任务之间相互依赖少
通常情况下,某个顶点的坐标变换不依赖也不影响其它顶点的坐标变换,某个像素的颜色计算不依赖也不影响其它像素的颜色计算
3. 硬件设计偏向高并发的设计
堆砌大量的计算单元,基于SIMD 设计
单指令多数据流(SIMD)的 设计思路
1. 单指令单数据流的处理流程:
每个周期执行指令,获取一个输入,得到一个输出,CPU 处理计算任务的处理流程通常是单指令单数据流的流程
2. 单指令多数据流的处理流程:
在一个处理周期内,取同一条指令,获取多个输入数据流,得到多个输出流,相当于一个周期完成多个任务,这些任务必须是相同的任务,只是具体数据不一样,单指令多数据流的一个形象展示:
这是一个典型的单指令多数据流流程:
GPU整体架构
SIMD 处理单元包含的组件
1. ALU
ALU 的数量决定了 SIMD 单元的并行能力,数量通常是 4 的整数倍
半精度浮点数计算开销是全精度浮点数的一半,比如一个周期如果能计算16次全精度浮点数运算,则能进行32次半精度浮点数运算
整数计算性能弱于浮点数(有些GPU会拆分整数 ALU 和 浮点数 ALU),总之尽量减少整数计算
2. SFU
SFU数量少,在高级数学函数使用较多时有明显瓶颈
整数乘法在有的 GPU 上由 SFU 执行而不是 ALU 执行
3. 固定管线组件
固定管线组件的作用就是执行固定的渲染管线,包括 vertex shader、光栅化、深度测试、pixel shader 等
4. SIMD 单元执行方式
首先我们回顾一下 CPU 的多线程执行模型,多个线程在一个 CPU 核心上是按照时间片来调度的,每个时刻只有一个线程在 CPU 核心上执行,每个线程的上下文保存在 告诉缓存中,时间片切换调度一个线程占有 CPU 时,对应的上下文进行切换。
GPU 中每个 SIMD 的执行方式有点类似 CPU:
- 线程束(Warp):一组能以 SIMD 方式执行的任务,可以简单理解为执行一模一样指令的的一组任务的集合。
(1)线程束中的“线程”数量通常由 ALU 数量决定
(2)线程束的寄存器上下文由本地的告诉存储器 Register File 保存
(3)线程束之间不以时间片来主动进行切换,切换只发生在一个线程束阻塞时(如读取贴图时)
5. Register File
reigister File 的示意图如下:
SIMD 单元能同时调度的线程束Warp数量取决于能容纳多少个上下文
编写 Shader 时应该适当使用寄存器
尽量把数据包装为 Vector4,减少内存对齐产生的浪费,Register File 中需要做内存对齐
当 Shader 中的指令过多往往会需要更多临时变量
GPU 命令执行顺序
- GPU 运行的基本原则是:乱序执行
(1)并发任务内部线程束执行耗时不一致(分支、Cache Miss 等原因)
(2)GPU 会尽最大可能填充任务到 SIMD 中
- 顺序保障
(1)大部分时候GPU执行的任务不需要保障任务的顺序
(2)渲染管线中,同一个像素的写入顺序可以得到保证:先执行的 DrawCall 对像素的颜色写入一定先写(Computer Shader 不走渲染管线,这里得不到保障)
(3)软件层面做的保障:Resource Barrier 提供执行过程中的同步点,保证对资源的某些操作全部完成
GPU 执行分支和循环语句
- 分支和循环语句的特点:
(1)造成当前线程束以 lockstep 方式执行,但不会造成整个 DrawCall 的 lockstep
(2)有可能打断指令预读的流水线