二叉树是最常用的数据结构之一,笔者过去一直将关注点放在复杂的树结构(例如红黑树,自平衡树),认为那些才是树的重要应用,但当重新由基本看起,才发现树的基本定中就隐藏着树这一结构的精髓。尽管是些浅薄蠢笨的理解和推演,但笔者还是满怀兴奋的想要将它记录下来。
一、二叉树的定义
二叉树的定义不用多说,很多书本上都有明确的定义,但有些细节是笔者过去所没有注意的,先给出殷人昆教授对于二叉树的基本定义——
二叉树是结点的一个有限集合,该集合或者为空,或者是由一个根结点加上两棵分别称为左子树和右子树的、互不相交的二叉树组成。
可以看出二叉树的定义是递归的,根结点的子树仍然是二叉树,到达空子树时递归定义结束。
一般来说,关于树的术语对于二叉树都是适用的,但应该明确的是二叉树不是树,理由如下:
- 树在图论中被视为用n-1条边连接n个结点的的特殊的图。图的顶点结合非空,故树的顶点非空。图论中另外定义了N叉树,它可以是空树,二叉树属于N叉树。
- 非空二叉树有根,根结点的子树有左右之分,次序不能颠倒;若其中一棵子树为空,则另一棵子树也必须保持左右之分。树可以没有根(自由树);即使有根,其子树也没有这种区分。
那么,这就出现一个问题——二叉树的叶结点无子女,是否可称它为无子树?
根据定义,应该是不能的,因为可认为叶子点的左右子树为空子树。
虽然认识这一区别的目的并非应试,但笔者还是提一句:个人认为在一般的测试中未必会考察到这么细致,所以遇到忽略这一细致区别的出题人时请不要过于惊讶。
二、二叉树的性质
接下来的描述中有必要用到一些数学符号,在Markdown中不好画出,因此我们再次规定一些符号——
- a^b—— a的b的次方 (计算机常用,无需多言)
- int_UP()—— 向上取整(即去掉浮点数的小数部分,然后将整数部分加1)
- int_DOWN()—— 向下取整(即去掉浮点数的小数部分,只留整数部分)
- log(a,b) —— 表示以a为底取b的对数
性质的内容
二叉树具有以下五个性质:
- 在二叉树的第i(i>=1)层最多有2^(i - 1)个结点。
- 深度为k(k>=0)的二叉树最少有k个结点,最多有2^k-1个结点。
- 对于任一棵非空二叉树,若其叶结点数为n0,度为2的非叶结点数为n2,则n0 = n2 +1。
- 具有n个结点的完全二叉树的深度为int_UP(log(2,n+1))。
- 如果将一棵有n个结点的完全二叉树自顶向下,同一层自左向右连续给结点编号1,2,3,......,n,然后按此结点编号将树中各结点顺序的存放于一个一维数组,并简称编号为i的结点为结点i( i>=1 && i<=n),则有以下关系:
(1)若 i= 1,则结点i为根,无父结点;若 i> 1,则结点 i 的父结点为结点int_DOWN(i / 2);
(2)若 2*i <= n,则结点 i 的左子女为结点 2*i;
(3)若2*i<=n,则结点i的右子女为结点2*i+1;
(4)若结点编号i为奇数,且i!=1,它处于右兄弟位置,则它的左兄弟为结点i-1;
(5)若结点编号i为偶数,且i!=n,它处于左兄弟位置,则它的右兄弟为结点i+1;
(6)结点i所在的层次为 int_DOWN(log(2,i))+1。
部分性质的证明
- 性质1可以通过数学归纳法得到证明
- 性质2证明:
由性质1可知,k层的最大节点总数可表示为2^0+2^ 1+……+2^ (k-1) = 2^k- 1; - 性质3证明:
首先,由节点的角度看n1+n2+n0=n,设此为(1)式;
再从边的角度看,n2下接两条边,n1下接一条边,n个节点两两相连一共需要n-1条边,可得2*n2+n1=n-1,此为(2)式;
由(1)式-(2)式,可得
n0-n2=1。
三、一些拓展和说明
1. 完全二叉树
可以看出性质4和5是针对重要的特殊二叉树——完全二叉树的,在此先给出特殊二叉树的定义。
(1)满二叉树
深度k的满二叉树是有2^k-1个结点的二叉树,在满二叉树中,每一层结点都达到了最大个数,除最底层结点的度为0外,其他各层结点的度都为2。
(2)完全二叉树
如果一棵具有n个结点的深度为k的二叉树,它的每一个结点都与高度为k的满二叉树中编号为1 ~ n-1的结点一一对应,则称这棵二叉树为完全二叉树。
其特点是:上面从第1层到第k-1层的所有各层的结点数都是满的,仅最下面的第k层是满的,或从右往左连续缺少若干结点。
(3)完全二叉树的结论
- 若完全二叉树有n个结点,当n为奇数时,n1 = 0,n2 = int_DOWN(n/2),n0 = n2 + 1;
- 当n为偶数时,n1 = 1, n0 = n/2;n2 = n0 - 1。
证明 ——
由之前的结论可知,k层结点数为n-(2^(k-1)-1);
由于仅最下面的第k层是满的,或从右往左连续缺少若干结点;
k层结点依次从左到右位于k-1层结点的下方,且中间不留空子树;
故表达式(n-(2^(k-1)-1))/2的商为k-1层中度为2的结点,余数为度为1的结点。
故当n为奇数时,n1=0;
当n为偶数时,n1=1;
由于k-1层以及以上的结点都是满的,即一共2^(k-2)-1个结点;
n2= int_DOWN((n-(2^(k-1)-1))/2)+2^(k-2)-1
= int_DOWN((n+1)/2)-1
故当n为奇数时,n2= int_DOWN(n/2)+1-1= int_DOWN(n/2),n0=n2+1;
当n为偶数时,n2= n/2-1,n0=n/2-1+1=n/2。
证毕。
2. 性质5的拓展
如果结点编号从0开始,则有以下结论:
(1)结点i(1<=i<=n-1)的父结点为结点int_DOWN((i-1)/2),结点0无父结点;
(2)分支结点中编号最大的是结点int_DOWN((n-2)/2)或结点int_DOWN(n/2)-1;
(3)若i<=int_DOWN((n-2)/2),则结点i的左子女为2*i+1;若i<=int_DOWN((n-3)/2),则结点i的右子女为2*i+2;
(4)若i为偶数且大于0,则结点i有左兄弟结点i-1;若i为奇数且i<=n-2,则结点i有右兄弟结点i+1;
(5)结点i(0<=i<=n-1)在第int_DOWN(log(2,i+1))+1。
3. 二叉树存储和遍历的小结论
- 含有 n 个结点的二叉链表中有 n+1 个空指针域,这是因为在所有结点的2n个链指针域中只有n-1个存有边信息的缘故。三叉链表则有n+2个空指针域。
- 前序遍历算法中,第一个被访问的元素一定是二叉树的根,如果根的左子树非空,则紧跟在根后的一定是根的左子女;如果左子树为空,则其后紧跟的是其右子树的根。
- 后序遍历算法中,最后一个被访问的一定是二叉树的根,如果根的右子树非空,则在根之前的一定是根的右子女;如果右子树为空,则其前的元素是其左子树的根。
参考资料:数据结构(C语言描述),清华大学出版社(2012.10),殷人昆