c和指针的关系十分密切,所以在本文,我们会详细的谈谈指针。这边我会结合<<c与指针>>这本书的内容来介绍它。
一.内存与地址
计算机的内存可以看作是一条长街上的一排房屋。每座房子都可以容纳数据,并通过一个房号来标识。这个比喻颇为有用,但也存在局限性。计算机的内存由数以亿万计的位(bit)组成,每个位可以容纳值0或1。由于一个位所能表示的范围太有限,所以单独的位用处不大,通常许多位组成一个单位,这样就可以存储范围较大的值。这里有一幅图,展示了现实机器的一些内存情况。
这里每个位置的方块都被称为字节(byte),每个字节都包含了存储一个字符所需要的位数,在许多现代机器上,每个字节包含8个位,可以表示无符号值0~255,或有符号值-128~127,上面这张图没有显示出这部分内容,但内存中的每个位置总是包含着一些值。每个字节通过地址来标识,如上图方框上面的数字所示。
为了存储更大的值,我们把两个或多个字节合在一起作为一个更大的存储单位。例如,许多机器以字位单位存储,每个字通常由2个或者4个字节组成。下面这张图所标识的内存位置与上图相同,但这次它以4个字节的字来表示。
由于它们包含了更多的位,每个字可以容纳的无符号整数的范围更大了(0~4294967295(2^32-1))。
注意,尽管一个字包含了4个字节,它仍然只有一个地址。至于它的地址是从最左边那个字节的位置还是最右边字节的位置开始,不同的机器有不同的规定(大小端)。另一个需要注意的是边界对齐(boundary alignment),在要求边界对齐的机器上,整型值存储的起始位置只能是某些特定的字节,通常是2或4的倍数。但这些问题是硬件设计师的事情,它们很少影响写程序的,废话有点多了,总之,我们通常只对两件事情感兴趣:
内存中的每个位置都有一个独一无二的地址标识
内存中的每个位置都包含一个值
地址与内容,
这里有另外一个例子,这次它显示了内存中5个字的内容。
这里显示了5个整数,每个都位于自己的字中。如果你记住了一个值的存储地址,你以后可以根据这个地址取得这个值。
但是要记住所有这些地址可太笨拙了,所以高级语言提供的特性之一就是通过名字(变量名)而不是地址来访问内存的位置。下面这张图与上图相同,但这次使用名字来代替。
当然,这里的名字就是我们所称的变量。有一点非常重要,你必须记住,名字与内存位置之间的关联不是硬件所提供的,它是由编译器为我们实现的。所以这些变量其实是给了我们一种更方便的方法去记住地址,实际上硬件仍然可以通过地址访问内存位置。
二、值与类型
现在我们看下上图存储于这些位置的值。头两个位置存储的是整数112和-1。第三个位置存储的是一个非常大的整数,第四五个位置存的也是整数。下面是这些变量的声明:
在这些声明中,变量a和b确实用于存储整型值。但是c所存储的是浮点值。但上图中c的值却是一个整数。那么c到底是整数还是浮点数呢?
答案是该变量包含了一序列内容为0或者1的位。这个01序列可以被解释为整数,也可以被解释为浮点数,这取决于它们被使用的方式。如果使用的是整型算术指令,这个值就是整数,如果用的是浮点指令,它就是个浮点数。
这个事实引出了一个重要的结论:不能简单地通过检查一个值的位来判断它的类型,为了判断值的类型(以及它所表达的值),你必须观察程序中这个值的使用方式。考虑下面这个以二进制01表示的32位值:
下面是这些位可能被解释的许多情况中的几种。这些值都是从一个基于Motorola68000的处理器得到的。如果换个系统,使用不同的数据格式和指令,对这些位的解释将有所不同。
这里,一个单一的值可以被解释为5种不同的类型。显然,值的类型并非值本身所固有的一种特性,而是取决于它的解析方式。因此,为了得到正确答案,对值进行正确的使用是非常重要的。
当然,编译器会帮助我们避免这些错误。如果我们把变量c声明为float型变量,那么当程序访问它时,编译器就会产生浮点型指令。如果我们以某种对float类型而言不适当的方式访问该变量时,编译器就会发出错误或者警告信息。现在看来非常明显,图中所标明的值是具有误导性质的,因为它显示了c的整型表示方式,事实上真正的浮点值是3.14。
三、指针变量的内容
话题转回指针,看看变量d和e的声明。它们被声明位指针,并用其他变量的地址予以初始化。指针的初始化是用&(用在这边称为取地址符)操作符完成的,它用于产生操作数的内存地址。
d和e的内容是地址而不是整型或浮点型数值。事实上,结合上面几幅图可以容易地看出,d的内容和a的存储地址一致,而e的内容与c的存储一致,这也正是我们对这两个指针进行初始化时所期望的结果。区分变量d的地址(112)和它所存储的内容(100)是非常重要的,同时也必须意识到100这个数值用于标识其他位置(是某个内存位置的地址)。在这一点上,本文一开始房屋这个比喻不是很行得通,因为房子的内容不太可能是其他房子的地址。
在下一步之前,先看一下涉及这些变量的表达式。仔细考虑这些声明,
a、b、c、d、e的值分别是什么呢?
前3个很显然:a的值是112,b的值是-1,c的值是3.14。指针变量其实也很容易,d的值是100,e的值是108。如果你认为d和e的值分别是112和3.14,那么你就犯了一个极为常见的错误。d和e被声明为指针并不会改变这些表达式的求值方式:一个变量的值就是分配给这个变量的内存位置所存储的数值。如果你简单地认为由于d和e是指针,所以它们可以自动获得存储于位置100和108的值,那你就错了。变量的值就是分配给该变量的内存位置所存储的数值,即使是指针变量这点也不会变。
四、间接访问操作符
通过一个指针访问它所指向的地址的过程称为间接访问(indirection)或解引用指针(dereferencing pointer)。这个用于执行间接访问的操作符是单目操作符*。这里有一些例子,它们使用了前面小节里的一些声明。
d的值是100,当我们对d使用间接访问操作符时,它表示访问内存位置100并查看那里的值。因此,*d的右值是112,即位置100的内容,它的左值是位置100本身。
注意上表各个表达式的类型:d是一个指向整型的指针,对它进行解引用操作将产生一个整型值。类似,对float*进行间接访问将产生一个float型的值。
正常情况下,我们并不知道编译器为每个变量所选择的存储位置,所以我们实现无法预测它们的地址。这样,当我们绘制内存中的指针图时,用实际数值表示地址是不方便的。所以绝大部分书籍改用箭头代替,如下所示:
但是,这种记法可能会引起误解,因为箭头可以使你误以为执行了间接访问操作,但事实上,它不一定会执行这个操作。例如根据上图,你能推断表达式d的值是什么?
如果你的答案是112,那么你就被这个箭头误导了。正确答案是a的地址,而不是它的内容。这个箭头似乎会把你的注意力吸引到a上。要使你的思维不受箭头影响是不容易的,这也是问题所在:除非存在间接引用操作符,否侧不要被箭头所误导。
五、未初始化和非法的指针
下面这个代码段说明了一个极为常见的错误:
这个声明创建了一个名为a的指针变量,后面那条赋值语句把12存储在a所指向的内存位置。
警告:
但是a究竟指向哪里呢?我们声明了这个变量,但从未对它进行初始化,所以我们没有办法预测12这个值将存储于声明地方,从这一点来看,指针变量和其他变量并无区别。如果变量是静态的,则它会被初始化为0;如果变量是自动的,它根本不会被初始化。无论是哪种情况,声明一个整型的指针都不会“创建”(确切来说是分配)用于存储整型值的内存空间。
所以,如果程序执行这个赋值操作,会发生什么情况呢?如果你运气好,a的初始值会是一个非法地址,这样赋值语句将会出错,从而终止程序。在UNIX系统上,这个错误被称为“段违例(segmention violation)”或“内存错误(memory fault)”。它提示程序试图访问一个并未分配给该程序的内存位置。在一台运行Windows的PC上,对未初始化或非法指针进行间接访问操作是一般保护性异常(General Protection Exception)的根源之一。
对于那些要求整数必须存储于特定边界的机器而言,如果这种类型的数据在内存中的存储地址在错误的边界上,那么对于这个地址进行访问时将会产生一个错误。这种错误在UNIX系统中被称为“总线错误(bus error)”。
一个更为严重的情况是:这个指针偶尔可能包含一个合法的地址。接下来的事很简单:
位于那个位置的值被修改,虽然你无意去修改它,像这种类型的错误非常难以捉摸,因为引发错误的代码可能与原先用于操作那个值的代码完全不相干,所以在你对指针进行间接访问之前,必须非常小心,确保它们已被初始化。
未完待续...