0x01
首先,Linux下,一个C语言的hello world程序如下:
#include <stdio.h>
int main(void)
{
printf("Hello world!\n");
return 0;
}
然后使用gcc命令将这段代码变成一个可执行程序。
$ gcc -g -Wall 0_1_hello_world.c -o hello_world
0x02
先讲gcc的过程。
其中过程涉及到:预处理、编译、汇编和链接四个步骤。
只是gcc自动完成了这一系列的步骤。
预处理
预处理是用来处理预处理命令的。
例如,c语言中的#include就是预处理命令,它的作用是把头文件的内容包含到本文件中。(大一就学了好吗?)
$ gcc -E 0_1_hello_wolrd.c
$ gcc -E 0_1_hello_world.c > 0_1_hello_world.i
执行上面第一条命令,可以在预处理后自动停止后面的操作,并将预处理的结果输出到标准输出。
执行上面第二条命令,可以得到预处理后的文件,很明显能看出,预处理后的文件是一个后缀名为i的文件。
这个时候,我才明白,当时学习c语言的时候为什么说千万不能在头文件中定义全局变量。
答案是:
因为定义全局变量的代码会存在于所有以#include包含该头文件的文件中,也就是说,所有的这些文件,都会定义一个同样的全局变量,这样不可避免的就会引起冲突。
编译
编译,就是对源代码进行语法分析,并优化产生对应的汇编代码的过程。
简单的说,编译做的事情就是:
**源码---->汇编代码 **
同样,gcc也可以让你看到编译后的汇编代码。
$ gcc -S 0_1_hello_world.c -o hello_world.s
-S这个参数是啥意思呢?
就是让gcc在编译完成后停止后面的动作。
可以看到,源码编译完成后的汇编代码,是一个后缀名为s的文件。
汇编
汇编,就是把源码变成可执行的指令,并生成目标文件。
粗俗一点讲,就是把一堆你认识的代码变成计算机认识的指令。
$ gcc -c 0_1_hello_world.c -o 0_1_hello_wolrd.o
此指令作用在此就不赘述了。
链接
这一步骤,大概大学是教过的吧,但的确是完全还给老师,不记得了。
链接,就是把各个目标文件(包括库文件)链接成为一个可执行的程序。这里面涉及的东西就太多了,什么地址和空间的分配啥的....
在Linux里面,这个是由GNU的链接器ld完成的。
**整个gcc的过程,可以用gcc的-v参数查看完成和详细的编译过程
$ gcc -g -Wall -v 0_1_hello_world.c -o hello_world
0x03
一个可执行的文件,里面是什么样的呢?
Linux下面的二进制可执行文件的格式一般都是ELF。
可以使用readelf命令来查看ELF格式。
然后你会看到一大堆不是很懂的东西....
包括ELF Header、Section Headers、Key to Flags等...
0x04
一个程序 到底是怎么run起来的?
在Linux下,可以用strace这个命令来跟踪系统的调用,从而明白这个程序是怎么运行的,调用了一些什么。
$ strace ./hello_world
strace命令显示的是hello_world这个程序开始执行后的所有输出。
0x05
此文是之前瞄了一眼同事的Linux内核相关书籍后总结整理的,仅为记录,知识相对较深。对于除Linux内核开发人员之外的人,大概都不怎么会用到。
算是自己记录一下冷知识吧。