- 编译器编译源代码后生成的文件较目标文件
- 目标文件从结构上讲是编译后的可执行文件格式,只不过没有进行链接,有些符号或者地址没有进行校正
3.1 目标文件的格式
- 目标文件就是源代码编译后但未进行链接的中间文件
- 在Linux下可执行文件叫ELF,Windows下叫PE,在Mac系列下,通常是mach o格式文件
3.2 目标文件是什么样的
- 目标文件中的内容至少有编译后的机器指令代码、数据,还包括符号表、调试信息、字符串等
- 一般目标文件将不同信息进行归类,归类单位有“section”和“segment”,通常segment范围会更大,section粒度更细
- 一般倍编译后的机器指令通常在代码段(code section/text section)中
- 全局变量和局部静态变量数据存放在数据段(data section)
- 在可执行文件中开头通常会包含一个“文件头”,描述了整个文件的文件属性,包括是否可执行,目标硬件,目标操作系统等,文件头还包括一个段表,段表表述了文件中各个段在文件中的偏移位置以及段的属性等,从段表里面可以得到每个段的所有信息
- 文件头后面就是各个段的内容,比如代码段保存的就是程序的指令,数据段保存的就是程序的静态变量
- 一般编译后的执行代码都编译成机器代码,保存在text 段,已经初始化的全局变量和局部静态变量都保存在data段,未初始化的全局变量和局部静态变量都放在bss段里
- text段是只读的,data段是可读写的
3.3 挖掘simpleSection.o
- 每一个目标文件中包含:代码段、数据段、bss段(未定义的全局变量以及局部静态变量),只读数据段(.rodata),注释信息段(.comment),堆栈提示段(.mote.GNU-stack)
3.3.2 数据段和只读数据段
- .data段保存已经初始化的全局静态变量和局部静态变量
- .bss段存放的是未出实话的全局变量和局部静态变量
3.4 ELF文件结构描述
- ELF文件与段有关的重要结构就是段表,该表描述了每个段的段名、段长度、在文件中的偏移、读写权限以及段的其他属性,段表是在ELF文件头中
3.4.1 文件头
- 文件头定义了ELF魔数,文件机器字节长度,数据存储方式、版本、运行平台、abi版本、elf重定位类型、硬件平台、硬件平台版本,入口地址、程序头入口和长度、段表的位置和长度以及段的数量
3.4.2 段表
- 编译器、链接器和装载起都是依靠段表来定位和访问各个段的属性
3.4.3 重定位表
- 链接器在处理目标文件是,需要对目标文件中某些地方进行重定位
3.5 链接的接口--符号
- 链接过程的本质是要把多个不同的目标文件进行关联成一个整体
- 在链接中将符号和变量统称为符号,函数名或变量名就是符号名
- 每一个目标文件都会有一个对应的符号表,这个表里面记录了目标文件中所用到的所有符号
- 每个定义的符号有一个对应的值,叫符号值
- 对于变量和函数来说,符号值就是它们的地址
3.5.3 符号修饰与函数签名
- 函数签名:包含了一个函数的信息,包括函数名、参数类型、它所在的类和名称空间以及其他信息
int func(int);
float func(float);
class C{
int func(int);
class C2 {
int func(int);
};
};
namespace N{
int func(int);
class C {
int func(int);
};
}
- 上述函数对应C++的函数说明如下:
1.int func(int)
2.float func(float)
3.int C::func(int)
4.int C::C2:func(int)
5.int N::func(int)
6.int N::C::func(int)
3.5.5 强符号与弱符号
- 编译器默认函数和初始化的全局变量为强符号
- 未初始化的全局变量为弱符号
- 在c/c++中可以用attribute((weak))来定义任何一个强符号为弱符号
- 链接器会按照如下规则处理与选择被多次定义的全局符号:
1.不允许强符号被多次定义(即不同的目标文件中不能有同名的强符号),如果有多个强符号定义,则链接器报符号重复定义错误
2.如果一个符号在某个目标文件中是强符号,在其他文件中是弱符号,那么选择强符号
3.如果一个豪富在所有目标文件中都是弱符号,那么选择其中占用空间最大的一个