写在前面
我会尽可能地将一些关键概念进行描述和解释,但基于 深度学习 和 程序设计 的天坑,固然无法让一个完全没有相关概念基础的人完全跟上文章的节奏。对此请看不懂的各位多多见谅咯,毕竟这不是一片基础教程(当然,有问题可以在评论区提出,我会一一答复)。
参考阅读适宜人群:
1 关注AI实现技术的人们
2 对数据结构痴迷的人们
3 MNN的使用者
1 MNN
我们知道,如今的AI主要 以深度学习神经网络的方式 进行实践。神经网络模型的基本操作有 训练(Train,即创造模型)和 推理(Inference,即使用模型)。神经网络模型自有它的复杂性,所以,出现了 神经网络框架 这样让我们可以 忽略模型细节 来 使用 训练、推理 功能的工具。我们熟知的框架比如:Caffe,TensorFlow,Pytroch,Mxnet,Ncnn,当然,还有我们今天的主角之一, 阿里巴巴的深度神经网络推理引擎 MNN。
我们会好奇 MNN模型文件(.mnn)的秘密,想知道它组织结构的秘密(这点对 进行模型转换和模型调试 有至关重要的意义),即:
它是像一个.json文件一样使用字符串结构化的存储?
还是像ncnn的.bin文件一样只是将二进制的数值直接无隙存储?
调试MNN模型加载过程中我发现,.mnn文件的内容竟似乎是 莫名其妙地 从一个“不可读” 的状态变为了一个“可使用”的状态,即:
调试过程中我找不到字符串解析代码
调试过程中我也找不到二进制数据映射代码
我看到的只有:
const flatbuffers::Vector<flatbuffers::Offset<flatbuffers::String>> *tensorName() const {
return GetPointer<const flatbuffers::Vector<flatbuffers::Offset<flatbuffers::String>> *>(VT_TENSORNAME);
}
--->
template<typename P> P GetPointer(voffset_t field) const {
return const_cast<Table *>(this)->GetPointer<P>(field);
}
--->
template<typename P> P GetPointer(voffset_t field) {
auto field_offset = GetOptionalFieldOffset(field);
auto p = data_ + field_offset;
return field_offset ? reinterpret_cast<P>(p + ReadScalar<uoffset_t>(p))
: nullptr;
}
--->
voffset_t GetOptionalFieldOffset(voffset_t field) const {
auto vtable = GetVTable();
auto vtsize = ReadScalar<voffset_t>(vtable);
return field < vtsize ? ReadScalar<voffset_t>(vtable + field) : 0;
}
呃……试问一下大家看到这些代码的感受,应该不会很兴奋吧……
2 FlatBuffers
其实,无法解读MNN模型文件的秘密在于:MNN模型文件采用的存储结构是 FlatBuffers,而FlatBuffer的特点之一即为“ Access to serialized data without parsing/unpacking”,即 没有解析过程,没有解包过程。
我们(某一批特定的“我们”)知道,数据结构有 基础数据结构 和 结构化数据结构,那么,先在就优先了解一下FlatBuffer中常用的基础数据结构:
flatbuffers::String
该图即 字符串“OK”在 内存中,又或 文件中 的 存储字节排布(左边低字节,右边高字节)。
- 标黄的部分说明 字符串的长度,占用4个字节(图示存储模式为 小端模式)。
图中表示字符串长度为2,即(2 = 0 * 256^3 + 0 * 256^2 + 0 * 256^1 + 2 * 256^0); - 紧跟着字符串长度的存储空间即为 字符串的内容,图中字符串长度为2,所以紧跟其后的2个字节为该字符串的有效值。
flatbuffers::Vector & flatbuffers::Offset
这两个数据结构结合在一起使用会比较常见:如:flatbuffers::Vector<flatbuffers::Offset<Op>>
通俗地说,理解其为:一个指向特定数据结构的指针的数组。
类似flatbuffers::String的理解,4字节的Vector长度描述后,紧跟6个4字节的指针描述。
flatbuffers::Table
这个结构比较复杂,一片文章中的描述也比较清晰,我就不自己辛苦画图了。
文章:Improving Facebook’s performance on Android with FlatBuffers
简单来说,一个Table结构 被分为左右两部分(如图中黄色部分pivot point for John即为分界线),左边表示数据信息的偏移,右边表示数据信息。我们把图中黄色位置计做0,则:
- 图中最左侧的 1 指向黄色位置右边 第一个矩形;
- 图中左侧的 6 指向黄色位置右边 第6个矩形;
- 每个矩形我们依然理解为 1字节(8位) 的数据存储空间
3 MNN 中描述模型的数据结构
有了上面的基础,我们会好奇flatbuffers的存储内容与数据结构的 具体举例 或者 应用场景。所以,我们来初步了解一下MNN的底层模型数据结构。
3.1 MNN 底层模型数据结构全家福
从MNN的源码中把这些内容扒出来然后绘图貌似也没有让它能那么得容易阅读。哈哈,那就圈一些重点吧(当然图中的信息比重点多好多哟):
1 图中中部靠下的Op部分衍生了近100个操作(或说神经网络层)的flatbuffers::Table结构的定义,这边我只象征性地列举了常见的4个;
2 FlatBuffer数据结构是和存储对应的,所以我们可以认为MNN的设计者们期望过将整张图的内容放置到一个MNN模型文件中(至少他们预留了这样的扩展性);
3 当然,现阶段的大多MNN模型文件并没有包含上述全部的信息,详情见下图。
3.2 MNN 底层模型数据结构关键成员
这张图就简单了很多,这是我经过对一些真实MNN模型的调试,筛出来的模型关键信息相关的数据结构。说白了:
1 网络结构信息:Op与Op的排布顺序
2 网络操作的参数信息(权重等):存储在具体的Op衍生数据结构中(最右边的部分)
4 预告
这篇文章真的相当干燥!是否很期待一些更实践一些的内容呢?
后续我会再拟草一片文章以举例的方式来详细地分析 MNN模型文件的存储结构的关系(这篇文章即作为一片技术基础参照),我会拿出证据告诉大家,MNN真的是遵照 “这种规则” 来设计和运作的。所以我们知道了规则,完全可以按照你的思想去 修改和调试 MNN源码 和 MNN模型。
想把这 有些复杂并夹杂着大量基础知识 的 知识实践 用 短篇幅 说清楚真的不是一件容易的事情啊。(还是讲课做分享更轻松哈哈,毕竟有即时的听众反馈提问)
先看预告张草图吧,证明我的每篇文章都是很用心地希望创造一些帮助哦~:)