通用二进制格式
苹果在OSX/iOS中推出了非常创新的“通用二进制(Universal Binary)”这一概念,这个格式的基本思想是提供一个能够在任意架构上执行的完全可移植的二进制格式。不过实际上,“通用”二进制格式只不过是其支持的各种架构的二进制文件的打包文件。我们可以做个小实验来验证下。
daiyichao@daiyichaodeMacBook-Pro-2 doc % file /bin/ls
/bin/ls: Mach-O universal binary with 2 architectures: [x86_64:Mach-O 64-bit executable x86_64] [arm64e:Mach-O 64-bit executable arm64e]
/bin/ls (for architecture x86_64): Mach-O 64-bit executable x86_64
/bin/ls (for architecture arm64e): Mach-O 64-bit executable arm64e
上面的执行可以看到,/bin/ls
这个二进制文件,实际上是包含了两个架构的可可执行文件,我们简单的可以认为他就是把两个架构的可执行文件打包在了一起。
作为一个iOS
开发那么我们在iOS
的二进制文件中在做一次实验
daiyichao@daiyichaodeMacBook-Pro-2 A % file NKCoreModel
NKCoreModel: Mach-O universal binary with 4 architectures: [arm_v7:current ar archive] [arm_v7s] [x86_64] [arm64]
NKCoreModel (for architecture armv7): current ar archive
NKCoreModel (for architecture armv7s): current ar archive
NKCoreModel (for architecture x86_64): current ar archive
NKCoreModel (for architecture arm64): current ar archive
上面我们拿NKCoreModel
来测试发现,这个库里面包含了四个架构,所以这个通用二进制格式,其实就是把各种架构的二进制文件有规则的整合在来一起。
PS: 所以通用二进制,也会被叫做胖二进制
fat binary
,很形象是不是。还有个更有趣的是我们对这个二进制文件操作的工具叫做lipo(脂肪)
。
接下来我们研究一下他是怎么有效的整合在一起的。
通用二进制文件的格式定义
其实这个文件就在<mach-o/fat.h>
中
struct fat_header {
uint32_t magic; /* FAT_MAGIC or FAT_MAGIC_64 */
uint32_t nfat_arch; /* number of structs that follow */
};
struct fat_arch {
cpu_type_t cputype; /* cpu specifier (int) */
cpu_subtype_t cpusubtype; /* machine specifier (int) */
uint32_t offset; /* file offset to this object file */
uint32_t size; /* size of this object file */
uint32_t align; /* alignment as a power of 2 */
};
struct fat_arch_64 {
cpu_type_t cputype; /* cpu specifier (int) */
cpu_subtype_t cpusubtype; /* machine specifier (int) */
uint64_t offset; /* file offset to this object file */
uint64_t size; /* size of this object file */
uint32_t align; /* alignment as a power of 2 */
uint32_t reserved; /* reserved */
};
- magic: 魔数,这里的值是的
FAT_MAGIC/FAT_MAGIC_64
,因为很多库还没有支持到FAT_MAGIC_64
,所以我们大多数看到的还是0xcafebabe
- nfat_arch: 架构数量
- cputype:
cpu
类型 - cpusubtype: 机器标识符
- offset: 这个架构的二进制代码在整个通用二进制文件中的
offset
- align: 对齐边界,
Mac
: 32位系统是12,64位系统是14,iOS
: 32位系统是2,64位操作系统是3
这边我猜测可能是移动设备之前设计之初的内存很受限,因为对齐是有空间消耗的,所以对齐的单位经可能的小,而且因为
PC
当时机械硬盘(扇区概念)比较多,而移动设备主要是固态硬盘(并不需要针对扇区优化)。
- reserved: 64位专用,保留字
daiyichao@daiyichaodeMacBook-Pro-2 doc % lipo -detailed_info /bin/cp
Fat header in: /bin/cp
fat_magic 0xcafebabe
nfat_arch 2
architecture x86_64
cputype CPU_TYPE_X86_64
cpusubtype CPU_SUBTYPE_X86_64_ALL
capabilities 0x0
offset 16384
size 41712
align 2^14 (16384)
architecture arm64e
cputype CPU_TYPE_ARM64
cpusubtype CPU_SUBTYPE_ARM64E
capabilities PTR_AUTH_VERSION USERSPACE 0
offset 65536
size 57728
align 2^14 (16384)
daiyichao@daiyichaodeMacBook-Pro-2 A % lipo -detailed_info NKCoreModel
Fat header in: NKCoreModel
fat_magic 0xcafebabe
nfat_arch 4
architecture armv7
cputype CPU_TYPE_ARM
cpusubtype CPU_SUBTYPE_ARM_V7
capabilities 0x0
offset 88
size 1353080
align 2^2 (4)
architecture armv7s
cputype CPU_TYPE_ARM
cpusubtype CPU_SUBTYPE_ARM_V7S
capabilities 0x0
offset 1353168
size 1354608
align 2^2 (4)
architecture x86_64
cputype CPU_TYPE_X86_64
cpusubtype CPU_SUBTYPE_X86_64_ALL
capabilities 0x0
offset 2707776
size 544344
align 2^3 (8)
architecture arm64
cputype CPU_TYPE_ARM64
cpusubtype CPU_SUBTYPE_ARM64_ALL
capabilities 0x0
offset 3252120
size 1505848
align 2^3 (8)
我们可以看到MAC
下面lipo
工具读取到了2
个架构:x86_64/arm64e
,这两个架构是通过cputype+cpusubtype
分析出来的,详情可以查看<mach-o/arch.h>
文件,其实就是一些if/else/swift
判断,这里就不展开了。
extern const NXArchInfo *NXGetArchInfoFromCpuType(cpu_type_t cputype,
cpu_subtype_t cpusubtype);
然后我们发现next arch offset != last offset + size
,这里就涉及到对齐了,对齐的作用主要是就是让硬盘读取速度变快,这里也不展开了。所以真正的next arch offset = ceil(last offset + size) / align * align
mach-o格式
前面我们介绍了各个架构二进制内容怎么在文件中的排列,那么各个架构中的详细内容是怎么排列的呢?
UN*X基本上标准化了一个通用的可移植的二进制格式,这个格式的名字其实大家应该看到过很多次ELF(Executable and Library)
,我想看到这个全称估计大家知道他是什么意思了。OSX/iOS
维护了自己的一套二进制格式: Mach-Object
(简写 Mach-O
)。
定义在<mach-o/load.h>
中
struct mach_header {
uint32_t magic; /* mach magic number identifier */
cpu_type_t cputype; /* cpu specifier */
cpu_subtype_t cpusubtype; /* machine specifier */
uint32_t filetype; /* type of file */
uint32_t ncmds; /* number of load commands */
uint32_t sizeofcmds; /* the size of all the load commands */
uint32_t flags; /* flags */
};
#define MH_MAGIC 0xfeedface /* the mach magic number */
#define MH_CIGAM 0xcefaedfe /* NXSwapInt(MH_MAGIC) */
struct mach_header_64 {
uint32_t magic; /* mach magic number identifier */
cpu_type_t cputype; /* cpu specifier */
cpu_subtype_t cpusubtype; /* machine specifier */
uint32_t filetype; /* type of file */
uint32_t ncmds; /* number of load commands */
uint32_t sizeofcmds; /* the size of all the load commands */
uint32_t flags; /* flags */
uint32_t reserved; /* reserved */
};
#define MH_MAGIC_64 0xfeedfacf /* the 64-bit mach magic number */
#define MH_CIGAM_64 0xcffaedfe /* NXSwapInt(MH_MAGIC_64) */
- magic: 魔数,0xfeedface表示32位,0xfeedfacf表示64位
- cputype/cpusubtype: CPU类型/子类型,定义在<mach/machine.h>,和通用二进制中的定义是移植的
- filetype: 文件类型(executable/library等)
- ncmds/sizeofcmds:用于加载器的加载命令的条数和大小
- flags:动态链接器的标志
- reserved: 保留字
从上面的定义我们可以很容易的发现,同一种二进制格式可以用作多种用途(executable/library等),在<mach-o/load.h>
中有定义文件类型,我们就关注一下iOS
开发中的比较常用的几个文件类型吧
文件类型 | 值 | 用途 | 备注 |
---|---|---|---|
MH_OBJECT | 0x1 | 可以重定位的目标文件,编译器的中间产物,内核扩展文件 | 我们把.c 文件编译之后得到的.o 就是 |
MH_EXECUTE | 0x2 | 可执行文件 | 可执行的文件,例如/usr/bin里面的文件们 |
MH_DYLIB | 0x6 | 动态库 | /usr/lib 中的的库文件,以及框架中的二进制文件 |
MH_DYLINKER | 0x7 | 动态链接器 | dyld |
MH_BUNDLE | 0x8 | 不是独立的二进制文件,包含了所有的信息,而且需要加载到其他二进制才可以执行,通过NSBundle来加载的 | |
MH_DSYM | 0x6 | 辅助的符号文件以及调试信息 | 我们的dsym文件就是 |
- MH_OBJECT
daiyichao@daiyichaodeMacBook-Pro-2 x86_64 % otool -arch x86_64 -h AppDelegate.o
AppDelegate.o:
Mach header
magic cputype cpusubtype caps filetype ncmds sizeofcmds flags
0xfeedfacf 16777223 3 0x00 1 43 4424 0x00002000
- NH_EXECUTE
daiyichao@daiyichaodeMacBook-Pro-2 doc % otool -arch arm64e -h /bin/cp
/bin/cp:
Mach header
magic cputype cpusubtype caps filetype ncmds sizeofcmds flags
0xfeedfacf 16777228 2 0x80 2 17 1544 0x00200085
- MH_DYLIB
daiyichao@daiyichaodeMacBook-Pro-2 doc % otool -arch arm64e -h /usr/lib/libgmalloc.dylib
/usr/lib/libgmalloc.dylib:
Mach header
magic cputype cpusubtype caps filetype ncmds sizeofcmds flags
0xfeedfacf 16777228 2 0x80 6 17 1728 0x02100085