HashMap分析小结

HashMap是Java使用频率很高的容器对象,内部使用了很多优化算法,源码非常值得学习.

关于HashMap

  • 非线程安全

HashTable对put和get使用了synchronized关键字,线程安全,但是已经被废弃,ConcurrentHashMap是推荐使用的线程安全,高并发Map实现

  • key-value存储
  • key和value都可以为null,多个为null的key会被后面的覆盖
  • key要求为不可变对象(引用类型必须重写hashCode和equals方法)

为了确保同一个对象的hash计算后的值唯一,不同的对象hash计算后的值一定不等.

  • HashMap内部存储结构为数组+链表+红黑树(JDK1.8开始)
HashMap存储结构

HashMap存储结构

在HashMap内部,有一个Node[] table 字段,Node类型就是数据保存在HashMap内部时的实际对象,Node实现Map.Entry接口,本质就是一个键值对,Node对象会持有下一个结点的引用,由此可知Node对象又维护了一个单向链表.

//HashMap中Node对象
static class Node<K,V> implements Map.Entry<K,V> {
        final int hash;
        final K key;
        V value;
        Node<K,V> next;

        Node(int hash, K key, V value, Node<K,V> next) {...}
       ...
}

HashMap使用哈希表的意义

HashMap使用了哈希表来存储,当key值哈希冲突之后使用链表保存冲突的值,当数据哈希计算之后得到数组下标,把数据放在对应下标的链表上.

Map<String,Integer> map = new HashMap<>();
map.put("key",123);

使用hash算法是为了尽量减少hash冲突,如果默认的node数组很大,那么发生冲突的几率也会减小,但是会浪费很多的内存空间,为了平衡效率和空间,HashMap采用了负载因子(loadFactor)和扩容提高空间使用率,提高存取效率.075是对空间和时间效率的一个平衡选择,不建议自行修改,除非对内存和时间效率有取舍有要求时才会进行修改.

负载因子的作用是控制HashMap扩容的时机,默认为0.75,HashMap初始的table大小为16.
简单来说 : 当存储数量>table.length*0.75时,就会触发HashMap扩容

//HashMap成员变量
//默认负载因子为0.75
static final float DEFAULT_LOAD_FACTOR = 0.75f; 
//默认桶的大小,1左移4位,就是16
 static final int DEFAULT_INITIAL_CAPACITY = 1 << 4
HashMap的table变量

根据上面这段注释,可以知道HashMap内部的数组只有在第一次使用的时候才会被初始化,在必要的时候会进行扩容,而且数组的长度总是2的n次方数,使用2的n次方的原因是为了在模运算和扩容是进行优化,同时为了减少冲突,HashMap定位哈希桶索引位置时,使用了高位运算.

HashMap使用了很多的算法和优化提高性能,但是当数据量很大时,哈希冲突无法避免,使用链表会导致数据的查找性能急剧下降,所以在JDK1.8加入了红黑树,当链表长度达到8时.链表会转为红黑树,利用红黑树快速增删改查的特点提高HashMap的性能.

由于红黑树是另一个知识点,不会在HashMap的小结中出现.

功能实现-方法

HashMap的内部实现了很多算法和功能,其中三个最具有代表性的方法是:根据key计算哈希桶数组索引下标,put方法,扩容.所以对这三个方法进行深入.

1.确定哈希桶数组索引位置

不管增删改查,第一步操作都是根据key的hash值获取key在哈希桶中的下标.由于HashMap的数据结构是数组+链表,由于数组的访问速度是最快的,所以应该尽量将存入的元素分布在不同的数组下标中,使得每个位置上的元素只有一个,当使用hash算法求得这个位置的时候,对应下标的元素就是所需元素,不需要遍历该位置上的链表,所以查询效率会很高.

数组在在内存中是连续的,所以查询效率是最高的,而链表是不连续的内存空间,每一次查询都需要遍历链表.

确定下标的步骤:

  • 步骤1
    • 取key的hashCode
    • key的hashCode无符号右移16位
    • 右移后的值与右移前的值做与运算.
static final int hash(Object key) {
        int h;
    
        return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
    }
  • 步骤2
    • 将调用hash(Object key)方法后获取的值和哈希桶长度-1做与运算
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
...
int n ;
n = (tab = resize()).length;
if ((p = tab[i = (n - 1) & hash]) == null)
...
}

这里就是hash算法确定下标的算法,本质上的流程为:取key的hashCode值、高位运算、取模运算。

由于HashMap使用了hashCode,所以只要确保key对象的不变性,那么调用hash(Object key)就一定能获取相同的哈希值,其次因为要确保下标要在哈希桶内,所以比较容易想到的是对哈希值和桶长度进行取模,这样就能保证元素的分布相对均匀.但是模运算消耗较大,所以在HashMap中的做法是使用h&(table.length-1),根据之前的分析可以,哈希桶的长度是2的n次方,所以table.length-1之后,二进制后的数字全部都是1,所以无论h的值是什么,都相当于取模的结果,但是&比%效率更高.

&比%效率高的证明

例如table.length = 16, h =5;
1111&0101 = 0101 ,即等于5,哈希桶下标为5

图1-1 h^(table.length-1)计算
2.HashMap的put方法
图2-2 HashMap的put方法执行流程
  • ①判断HashMap的哈希桶是否为null,通过resize()方法进行扩容.
  • ②判断哈希桶下标是否存在元素,不存在则插入元素
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
        Node<K,V>[] tab; Node<K,V> p; int n, i;
        //①第一次初始化table长度,
        if ((tab = table) == null || (n = tab.length) == 0)
            n = (tab = resize()).length;
        //②判断下标位置元素是否为空,如果为空插入一个新的值
        if ((p = tab[i = (n - 1) & hash]) == null)
            tab[i] = newNode(hash, key, value, null);
        else {
            ...//这里涉及到hash冲突后的处理
      }
}
  • ③当前元素不为空,证明发生了hash冲突,所以判断两个新旧两个key的值是否相同或相等,如果相等,用新value覆盖旧value
  • ④如果新插入的结点是TreeNode,即判断table[i]是否为红黑树,如果是则在树中插入该值,否则继续执行后序代码
  • ⑤遍历table[i],判断链表中结点是否有后继结点,如果后继结点为空则插入到队尾,同时判断当前链表长度是否大于8,如果大于8,则将链表转为红黑树
  • ⑥在遍历链表的过程中,如果发现新值的key已存在链表中,则覆盖旧的value为新value
  • ⑦插入成功后,判断实际存在的键值对数量size是否大于负载容量thredshold,如果超过,就调用resize()进行扩容
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
...
 Node<K,V> e; K k;
            if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))
                e = p;
            else if (p instanceof TreeNode)
                //当前链表为红黑树
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
            else {
                //遍历链表
                for (int binCount = 0; ; ++binCount) {
                    if ((e = p.next) == null) {
                        //将新值插入到链表队尾,
                        p.next = newNode(hash, key, value, null);
                        //判断当前链表长度是否大于8,是就转为红黑树
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                            treeifyBin(tab, hash);
                        break;
                    }
                    ⑥覆盖链表中的旧value
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        break;
                    p = e;
                }
            }
            if (e != null) { // existing mapping for key
                V oldValue = e.value;
                if (!onlyIfAbsent || oldValue == null)
                    e.value = value;
                afterNodeAccess(e);
                return oldValue;
            }
         ++modCount;
        if (++size > threshold)
         //扩容
            resize();
        afterNodeInsertion(evict);
        return null;
}
3.扩容机制

扩容就是重新计算HashMap中哈希桶的大小,向HashMap中不断添加元素,而数组必须在初始化定义长度,当数组不足以存放更多的元素,就需要扩大数组的长度,方法是使用一个新的数组代替已有的数组.就像装水时小桶换大桶.

扩容步骤:

  • ①判断旧的数组是否大于0,如果大于0且小于HashMap最大允许容量,则新的数组长度为旧数组长度*2
  • ②将旧数组的负载容量(长度负载因子)2作为新数组的负载容量
  • ③创建一个新的Node数组,长度为旧数组长度*2
 final Node<K,V>[] resize() {
        Node<K,V>[] oldTab = table;
        int oldCap = (oldTab == null) ? 0 : oldTab.length;
        int oldThr = threshold;
        int newCap, newThr = 0;
        
        if (oldCap > 0) {
        //如果旧的哈希桶长度大于最大可值,则将最大负载设为Integer的最大值,返回旧哈希桶
            if (oldCap >= MAXIMUM_CAPACITY) {
                threshold = Integer.MAX_VALUE;
                return oldTab;
            }
        //将旧桶的大小左移1位,相当于乘2,就是新桶的大小,同时新桶数量必须小于最大容量,并且旧桶长度大于默认容量
            else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                     oldCap >= DEFAULT_INITIAL_CAPACITY)
                newThr = oldThr << 1; // double threshold
        }
...

}
  • ④遍历旧数组,判断元素哈希值&旧数组长度是否为0,如果为0则将元素放在原下标,如果不为0则key的新下标的值等于原下标+旧数组长度.
    图中n为旧数组长度,key1为key在旧数组中的hash值,key2是key在新数组中hash计算后的值


    图3-1 原key在新的哈希桶下标位计算方法

    由图中可以得知,只要判断原key在高位新增的是0或是1,就能得到新的下标.


    图3-2 key在新数组中下标计算方法

源码实现

final Node<K,V>[] resize() {
...
                        Node<K,V> loHead = null, loTail = null;
                        Node<K,V> hiHead = null, hiTail = null;
                        Node<K,V> next;
                        do {
                            next = e.next;
                            //计算原索引
                            if ((e.hash & oldCap) == 0) {
                                if (loTail == null)
                                    loHead = e;
                                else
                                    loTail.next = e;
                                loTail = e;
                            }
                            else {
                                if (hiTail == null)
                                    hiHead = e;
                                else
                                    hiTail.next = e;
                                hiTail = e;
                            }
                        } while ((e = next) != null);
                        //放在原下标
                        if (loTail != null) {
                            loTail.next = null;
                            newTab[j] = loHead;
                        }
                        //放在新的下标,下标位置=原下标+旧数组成长度
                        if (hiTail != null) {
                            hiTail.next = null;
                            newTab[j + oldCap] = hiHead;
                        }
...
}

参考资料:
Java 8系列之重新认识HashMap

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,980评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,178评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,868评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,498评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,492评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,521评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,910评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,569评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,793评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,559评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,639评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,342评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,931评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,904评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,144评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,833评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,350评论 2 342

推荐阅读更多精彩内容