HashMap在并发的情况下可能出现的问题(在扩容的时候回有问题)
1.在put元素的时候会出现问题
2.在多线程put后可能导致get无限循环(具体标新为cpu利用率100%)
put方法的过程:
如果是存储的是null元素的话,放在桶的第一个位置
get方法的过程:
hashmap实现:数组+链表+红黑树
modCount的作用:
在ArrayList,LinkedList,HashMap等等的内部实现增,删,改中我们总能看到modCount的身影,modCount字面意思就是修改次数,但为什么要记录modCount的修改次数呢?
大家发现一个公共特点没有,所有使用modCount属性的全是线程不安全的,这是为什么呢?说明这个玩意肯定和线程安全有关系喽,那有什么关系呢
由以上代码可以看出,在一个迭代器初始的时候会赋予它调用这个迭代器的对象的mCount,如何在迭代器遍历的过程中,一旦发现这个对象的mcount和迭代器中存储的mcount不一样那就抛异常
好的,下面是这个的完整解释
Fail-Fast 机制
我们知道 java.util.HashMap 不是线程安全的,因此如果在使用迭代器的过程中有其他线程修改了map,那么将抛出ConcurrentModificationException,这就是所谓fail-fast策略。这一策略在源码中的实现是通过 modCount 域,modCount 顾名思义就是修改次数,对HashMap 内容的修改都将增加这个值,那么在迭代器初始化过程中会将这个值赋给迭代器的 expectedModCount。在迭代过程中,判断 modCount 跟 expectedModCount 是否相等,如果不相等就表示已经有其他线程修改了 Map:注意到 modCount 声明为 volatile,保证线程之间修改的可见性。
HashMap扩容机制(初始大小为16,加载因子为0.75)
针对于HashMap(),先问了我些基本问题,也就是数组+链表,解决冲突等等,后来问到了一个底层实现方法indexFor(),具体实现如下:
static int indexFor (int h,int length){
return h & (length-1);
}
首先,为什么取&,其实对length取%也是可以的,但是效率会降低,因为逻辑运算比模运算时间更快(其实&运算还有别的玄机)。其次,为什么要length-1,因为Node[]数组初始大小是16,按照2^n来扩容,以16为例,即2^n-1之后从10000变为01111,用01111与h做与运算减少了碰撞的可能性,因为1与任何数与,可能为0,可能为1,而0与任何数与只能为0,那么这意味着0001,0011,0101,1001,1011,0111,1101等位置永远都不能存放元素了,空间浪费相当大,更糟的是,在这种情况中,数组可以使用的位置比数组长度小了很多,这意味着进一步增加了碰撞的几率,减慢了查询的效率。前方高能哈~面试官又问了,为什么Node[]扩容是按照2^n呢?即2倍形式扩容,初始为16(2^4),扩容一次为32(2^5)…经过林哥和嘉辉的不懈努力,破解了这个谜题,我们可以这样思考,我们认为oldcap=10000,而oldcap-1=01111,扩容之后的newcap-1=11111,这样的设计使得扩容之后的HashMap所有节点重新进行了一次重排,而每个节点是否去重排仅仅取决于h的最高位,为0不重排,为1重排。至于重排的位置,也是由最高位决定。因此,HashMap()解决冲突的办法首先是扩容,然后所有节点进行充分散列重排,万不得已才会转化为红黑树,可以看得出来HashMap的设计是多么的精巧,&与-1与2^n三个trick环环相扣。
这里就是解决Hash的的冲突的函数,解决Hash的冲突有以下几种方法:
1. 开放定址法
线性探测再散列,二次探测再散列,伪随机探测再散列)
2. 再哈希法
3. 链地址法
4. 建立一 公共溢出区
而HashMap采用的是链地址法,这几种方法在以后的博客会有单独介绍,这里就不做介绍了。
HashMap中的Hash计算和碰撞问题:
HashMap的hash计算时先计算hashCode(),然后进行二次hash。代码如下:
先不忙着学习HashMap的Hash算法,先来看看JDK的String的Hash算法。代码如下:
从JDK的API可以看出,它的算法等式就是s[0]31^(n-1) + s[1]31^(n-2) + ... + s[n-1],其中s[i]就是索引为i的字符,n为字符串的长度。这里为什么有一个固定常量31呢,关于这个31的讨论很多,基本就是优化的数字,主要参考Joshua Bloch'sEffective Java的引用如下:
大体意思是说选择31是因为它是一个奇素数,如果它做乘法溢出的时候,信息会丢失,而且当和2做乘法的时候相当于移位,在使用它的时候优点还是不清楚,但是它已经成为了传统的选择,31的一个很好的特性就是做乘法的时候可以被移位和减法代替的时候有更好的性能体现。例如31i相当于是i左移5位减去i,即31i == (i<<5)-i。现代的虚拟内存系统都使用这种自动优化。
现在进入正题,HashMap为什么还要做二次hash呢? 代码如下: