链接器年龄比编译器长。。。
我仔细想了一下,程序进化的四个步骤,发现预处理和汇编很简单,难点在于编译和链接,然而最难的编译已经由专门开发gcc类似的大牛给解决了,那么留下来给普通开发者最大的难点可能就是链接了。因此链接的原理必须好好了解。
为了更好地理解计算机程序的编译和链接的过程,我们简单地回顾计算机程序开发的历史一定会非常有益。有句话怎么说的,要学习一项东西,首先要了解其历史,再学习其语言嘛。
计算机的程序开发并非从一开始就有着这么复杂的自动化编译、链接过程。原始的链接概念远在高级程序语言发明之前就已经存在了。在最开始的时候,程序员先把程序在纸上写好,当时没有高级语言,也没有汇编语言,用的是机器语言。。。当程序需要被运行时,程序员人工将他们写好的程序写入到存储设备上,最原始的存储设备之一就是纸袋,即在纸带上打相应的孔。
假设有一种计算机,它的每条指令都是1字节,也就是8位。我们假设有一种跳转指令,它的高4位0001,表示这是一个跳转指令,低4位存放的是跳转目的地的绝对地址。如上图所示,第0条指令是一个跳转指令,它的目的地址是第4条指令。
现在问题来了,程序并不是一写好就永远不变的,它可能会经常被修改。比如我们在第0条和第4条指令间插入一条或多条指令,那么第4条及其之后的指令位置都将会相应地往后移动。原先第0条的低4位数字也将做相应的调整。在这个过程中,程序员需要人工重新计算每个子程序或跳转的目标地址。当程序修改的时候,这些位置都要重新计算,十分繁琐又耗时,并且容易出错。这种重新计算各个目标的地址过程被叫做重定位relocation。
如果我们有多条纸带的程序,这些程序间可能会有类似跨纸带之间的跳转,这种程序经常修改导致跳转目标地址变化在程序拥有多个模块时更为严重。人工绑定进行指令的修正以确保所有的跳转目标地址都正确,在程序规模越来越大以后变得越来越复杂和繁琐。
后来。。。实在没办法忍受了,先驱们就发明了汇编语言,这相比机器语言来说是巨大的进步!汇编语言使用接近人类的各种符号和标记来帮助记忆,比如指令采用两个或三个字母的缩写,记住:“jmp”比记住0001xxxx是跳转(jump)指令要容易多啦。汇编语言还可以用符号来标记位置,比如一个符号“divide”表示一个除法子程序的起始地址,比记住从某个位置开始的第几条指令是除法子程序要方便得多。最重要的是,这种符号的方法使得人们从具体的指令地址中逐步解放出来。比如前面纸带程序中,我们把刚开始第4条指令开始的子程序命名为“foo”,那么第0条指令的汇编就是:
jmp foo
当然人们可以使用这种符号命名子程序或跳转目标以后,不管这个“foo”之前插入或减少了多少条指令导致“foo”目标地址发生了什么变化,汇编器在每次汇编程序的时候会重新计算“foo”这个符号的地址,然后把所有引用到“foo”的指令修正到这个正确的地址。整个过程不需要人工参与,对于一个有成百上千个类似的符号的程序,程序员终于摆脱了这种低级的繁琐的调整地址的工作。符号symbol这个概念随着汇编语言的普及迅速被使用,它用来表示一个地址这个地址可能是一个函数的起始地址,也可以是一个变量的起始地址。
在c中,最小单位是变量和函数,若干个变量和函数组成一个模块,存放在一个.c的源文件里,在一个程序被分割成多个模块以后,这些模块之间如何组合成一个单一的程序是必须要解决的问题。模块间如何组合的问题可以归结于模块间如何通信的问题,通信的两种方式一种是模块间的函数调用,一种是模块间的变量访问。函数访问需要知道目标函数的地址,变量访问需要知道目标变量的地址,所以这两个方式可以归结于一种:模块间符号的引用。这种模块间的通信和拼接,就是链接linking!
摘抄自《程序员的自我修养》