编译后的目标文件包含机器指令、数据和链接所需要的一些信息,比如符号表、调试信息、字符串等。目标文件将这些信息按不同的属性,以段(Segment)的形式存储。
从广义上看,目标文件与可执行文件的格式是一样的,只是还没经过链接的过程。Windows下的可执行文件格式是PE,Linux是ELF,它们都是COEF格式的变种。下文的剖析以ELF结构为主。
目标文件的结构
- ELF文件头:
包含描述整个文件的基本属性,比如文件版本、目标机器型号等。 - 段表(Section Table):
除文件头以外最重要的结构,描述了各个段的信息,比如段名、段长度、在文件中的偏移、读写权限和其他属性。
编译器、链接器和装载器都是依靠段表定位和访问各个段的属性的。
段表的位置由文件头的“e_shoff”成员决定,图中位于偏移0x118。
段名对于编译器、链接器有意义,但对于操作系统无实际意义,操作系统的处理由段类型和段的标志位决定。 - 代码段(常见的名字.code、.text)
编译后的机器指令放在代码段。 - 数据段(.data)
已初始化的全局变量和静态变量放在数据段。 - 只读数据段(.rodata)
存放只读数据,一般是程序里的只读变量(如const)和字符串常量(有些编译器放在数据段)。好处有:语义上支持C++ const关键字;安全,操作系统加载的时候将属性映射成只读,防止修改;支持只读存储器(ROM)访问。
- .bss段
.bss段为未初始化的全局变量和静态变量(初始化为0也默认为未初始化)预留位置,它并没有内容,也不占空间。
有些编译器不存放,只是在符号表预留一个符号,链接的时候再在.bss段分配空间。 - 重定位表(.rel.text)
重定位的信息记录在重定位表里,每个要重定位的代码段或数据段,都有一个相应的重定位表。 - 字符串表
.strtab是字符串表,保存普通字符串,比如符号名字;.shstrtab是段表字符串表,保存段表中用到的字符串,比如段名。
字符串的长度往往是不定的,固定表示它比较困难。一种常见的做法是集中存放到一个表里,然后用偏移来表示。
- 符号表(.symtab)
在链接中,我们将函数和变量统称为符号(Symbol),函数名和变量名就是符号名。此外,符号还包括文件名、段名和行号(可选)。
每个目标文件都有一个符号表,记录了所有符号。每个符号有一个对应的符号值,对于函数和变量来说,符号值就是地址
为什么要把指令和数据分开存放
- 程序装在后,数据和指令被映射到两块不同的区域,可以设置指令只读,数据可读写。
- 提高程序的局部性,从而提高缓存命中率。
- 最重要的原因是,指令共享。