散列表
散列表和数组或者链表一样,都是存储数据的一种数据结构,但是它比数组插入数据的时间复制度要低,比链表查找的时间复制度要低的多,接近O(1)。当然,实现也要比他们要复杂一些。
在介绍散列表之前我们先介绍一种算法,来帮助大家理解散列的思想。
不知道大家有没有学过一个叫做桶排序的排序算法。它的思想是准备些贴好标签(如0-99)的桶,然后,把输入的元素,按大小放入桶中,如元素值为1,则放入标签为1的桶中。当输入元素全部放入桶中后,从按标签顺序从桶取出元素,即是排好序的数组。当然,大家肯定也注意到了,桶排序的局限性,它只能排序整数,且整数的大小范围决定了桶的多少。
然后,我们抽象点来讲,桶排序的思想是将元素按某个映射函数,映射到相应的桶中,再根据映射函数将元素从桶中取出来。
其实散列也是差不多的思想,只是散列用的映射函数更复杂。
试想一下,我们定义了一个大小为1000的存储空间S,插入元素时,用映射函数将元素映射到S的某个位置,插入,时间复制度和链表的插入操作一样。然后,查找该元素时,根据映射函数找到元素的位置,由于位置可以直接根据函数计算,所以时间复杂度和数组的时间复杂度一样。
但是,估计大家也想到了,如果插入了两个相同的元素的话,不就出事了么。实际上,这个问题就叫做hash碰撞。也是我们实现散列表要解决的一个重要问题。
解决办法:
-
链接法散列:
存储空间S不存储具体的值,而是一个个链表的头指针,重复值都在同一条链表中。
它的好处在于插入操作实现简单。但修改操作复杂。而且在最坏情况下,所有值都被映射到一个位置的话,查找的复杂度就和链表的一样了。
-
开放寻址法。
通过另一个映射函数,把相同的值的分离。但是你想啊,相同的值,经历两次映射不也是相同的值么。其实我们可以换一种思维,将另一个函数作为选值函数。当我们将元素放入映射函数进行计算之前,要加上选值函数的返回值。而选值函数的参数是发生碰撞的次数。这样,相同的值就可以映射到不同位置了。但是要注意的是,要选择适当的映射函数和选值函数,且存储空间S应当足够大,要不然还是容易发生碰撞,这种碰撞是难以避免的。
选值函数其实可以分为三种,其实不同的选值的计算方法。(i为碰撞次数,k为元素值)
-
线性
这种方法的缺陷在于容易产生群集,连续被占用的位置越多,连续查找的时间会越来越长。 -
二次
-
这种方法的也容易产生群集,但是比第一个方法要好一些。
-
双哈希
由于这种方法利用了第二个哈希函数,所以产生群集的可能性较小。当然,如果存储空间不够大,群集还是很容易发生的。