简介
TensorRT 是Nvidia推出了一套加速库,针对神经网络计算做出一系列优化。
优化内容:
合并一些层
1,1 Conv、BN、ReLu合并成一个CBR层
1.2 取消Concat层。直接将concat层上一层的输出连接到需要的地方。
1.3 以Inception为例,多个分支中的第一层均为1*1卷积,合并成一个。并行
多个分支,如果没有依赖关系,可以进行并行计算。低精度
支持FP16和INT8。在训练阶段,由于反向传播梯度可能比较小,因此需要高精度。但是在Inference阶段,不太需要高精度。模型固定,可以对计算图进行优化(这个不太理解)
Kernel Auto-tuning
根据超参和输入大小的不同,选用不同的卷积计算方法Dynamic Tensor Memory
减少内存reuse
参考链接:
https://yq.aliyun.com/articles/580307
https://cloud.tencent.com/developer/news/329901