【前言】main函数执行前后的宏观过程(C++)
- linux系统下压板程序的入口是"_start",这个函数是linux系统库(Glibc)的一部分,当我们的程序和Glibc链接在一起形成最终的可执行文件的之后,这个函数就是程序执行初始化的入口函数。
- 程序初始化部分完成一系列初始化过程之后,会调用main函数来执行程序的主体。在main函数执行完成以后,再返回到初始化部分,进行一些清理工作,然后结束进程。
- 对C++而言:(ELF文件为其定义了两个特殊的段)
- .init 该段保存的是可执行的命令,它构成了进程的初始化代码。因此,当一个程序开始运行的时候,在main函数被调用之前,Glibc的初始化部分安排执行这个段中的代码
- .fini 该段保存着进程终止命令代码。因此,当一个程序的main函数正常退出的时候,Glibc会安排执行这个段中的代码。
- 这两个段的存在有特别的目的,如果一个函数放到.init段,在mai函数执行前系统就会执行它(就是因为它在这个段)。同理,如果一个函数放到.fini段,在main函数返回后该函数就会被执行。利用这两个特性,C++实现了全局构造和析构函数。
一个典型程序的大致运行步骤
- 操作系统创建进程后,把控制权交到了程序入口,这个入口往往是程序运行库中的某个入口函数。
- 入口函数对运行库和程序运行环境进行初始化,包括堆、I/O、线程、全局变量的构造等等。
- 入口函数在完成初始化之后,调用main函数,正式开始执行函数主体部分。
- main函数执行完毕之后,返回到入口函数,入口函数进行清理工作,包括全局变量析构、堆销毁、关闭I/O等,然后进行系统调用结束进程。
入口函数的实现
-
Glibc的入口函数
- _start函数
该入口是由ld链接器默认的链接脚本指定的,当然用户也可以通过参数进行设定。_start由汇编代码实现。大致用如下伪代码表示:
- _start函数
void _start()
{
%ebp = 0;
int argc = pop from stack
char ** argv = top of stack;
__libc_start_main(main, argc, argv, __libc_csu_init, __linc_csu_fini,
edx, top of stack);
}
具体过程可以参见下图:
在调用_start之前,装载器就会将用户的参数和环境变量压入栈中,如图所示,栈顶元素是argc,接着就是argv和环境变量的数组。
其中argv除了指向参数表外,还隐含紧接着环境变量表。这个环境变量表要在__libc_start_main里从argv内提取出来。
实际执行代码的是__libc_start_main。
- __libc_start_main函数
- 函数头
```
int __libc_start_main(
int (*main)(int, char **, char *),
char * __unbounded *__unbounded ubp_av,
__typeof(main) init,
void (*fini)(void),
void (*rtld_fini)(void),
viud *__unbounded stack_end)
可以啊看出,一共有7个参数,其中main由第一个参数传入,紧接着就是argc和argv(这里叫做ubp_av,应为其中还包括了环境变量表)。此外的3个函数指针:
(1)init:main调用之前的初始化工作;
(2)fini:main结束之后的收尾工作;
(3)rtld_fini:和动态加载有关的收尾工作。
最后的stack_end标明了栈底的位置,即最高的栈地址。
- \__libc_start_main代码中的一个特殊的宏(宏INIT_ARGV_and_ENVIRON)
宏展开之后如下:
`char **ubp_rv = &ubp_av[argc+1];`
`__environ = ubo_ev;`
`__libc_stack_end = stack_end;`
上述代码实际上就是从_start源代码分析得到的栈布局,重点是让_environ指针指向紧跟子啊argv数组后面的环境变量数组。如下图:
![](http://7xl3j2.com1.z0.glb.clouddn.com/cxy-21.png)
- __libc_start_main代码中的一系列重要的函数
```
__pthread_initialize_minimal();
__cxa_atexit(rtld_fini, NULL, NULL);
__libc_init_first(argc, argv, __environ);
__cxa_atexit(fini, NULL, NULL);
(*init)(argc, argv, __environ);
- __cxa_atexit函数是glibc的内部函数,等同于atexit,在main之后调用。
- 所以可以看出,参数传入的fini和rtld_fini均是用于main结束之后调用的。在\__libc_start_main末尾,关键是如下两行的代码:
`result = main(argc, argv, _environ);`
`exit(result);`
main函数最终被调用,并退出。
【补充】程序正常结束有两种情况:main函数正常返回;程序中exit()退出。但是在\__libc_start_main中可以看出,即使main正常返回了,exit还是会被调用。所以说exit()是程序退出的必经之路。