再谈HashMap，如何使用map优化代码

我并没有和HashMap杠上，想着重新开始写点技术的东西，就拿HashMap开头了。最近开始重新学习数据结构和算法，其中有些东西学完之后，对于HashMap的理解和运用又有新的认识。虽然之前运用HashMap也有这样用过，但是知道了方法论，才发现这样使用的好处。

上一期我写过HashMap，写的是JDK8之前的Hash，现在都JDK15了，大家有兴趣可以去看一下源计划之从HashMap认识数据结构

JDK8的HashMap

现在大家基本上使用的JDK版本都是8以上，所以JDK8的HashMap更有实用价值，那么JDK8之后，针对HashMap做了哪些优化呢？

hash方法变化

JDK8之后的Hash算法：

static final int hash(Object key) {
        int h;
        return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
    }

JDK7的hash算法：

static int hash(int h) {
h ^= (h >>> 20) ^ (h >>> 12);
return h ^ (h >>> 7) ^ (h >>> 4);
}

可以发现，JDK8之后使用了三元运算符，计算了2次，一次右移运算，一次异或运算。

而JDK7中的进行了4次右移运算，进行了四次扰动，JDK在Hash算法上提高了性能。

存储数据结构的变化

JDK8之前，发生了Hash碰撞之后，同一个node节点，将存储在链表中。

数组+链表

JDK8之后发生的变化

数组+链表+红黑树

当同一个node节点存储数据大小达到8之后，存储结构会将链表变成红黑树。

那么node节点存储数据大小一开始达到了8，后来map数据减少，该node数据大小小于8，node节点的存储结构是否还是红黑树？

答案：node有可能是红黑树，也有可能会退化到链表结构，因为退化阈值并不是8，而是6。

下面的HashMap源码可以发现，当node节点数据大小小于6的时候，才会将红黑树转化为链表结构。

static final int TREEIFY_THRESHOLD = 8;

static final int UNTREEIFY_THRESHOLD = 6;

if (loHead != null) {
                if (lc <= UNTREEIFY_THRESHOLD)
                    tab[index] = loHead.untreeify(map);
                else {
                    tab[index] = loHead;
                    if (hiHead != null) // (else is already treeified)
                        loHead.treeify(tab);
                }
            }

退化阀值为什么会是6，而不是8？

答案：虽然在查询效率上，链表结构的时间复杂度是 $O(n)$ 红黑树时间复杂度是 $O(logn)$ ,但是红黑树就是一种特殊的二叉树，红黑树在极端的情况下，其实是会变成像链表一样，数据量小的情况下，也最容易发生这种情况，在这种情况下，红黑树的查询时间复杂度和链表是一样的，趋近于O(n),但是红黑树的树节点比普通节点内存大2倍，在空间上是不如链表的，而以后阀值为6，而不和转化为红黑树的阀值一样，是为了避免反复转化。（这些源码是有参考意义的，在我们的业务代码中也可以用这种方式来避免反复的转换）

HashMap扩容时，将头插法改为了尾插法

为什么会出现这种变化呢？在JDK8之前的版本中，多线程操作下，HashMap会出现死循环的问题，而这种问题的导致原因就是因为，HashMap在扩容的时候，头插法，在链表头部插入，导致原有数据的链表位置发生的改变，就会出现下面的情况，形成环形链表，导致死循环。

JDK8以后改成了尾插法，原有数据的链表位置不发生改变，就不会出现上述情况。

但是即便是这样，HashMap也不是线程安全的，HashMap还是无法保证上一秒put的值，下一秒get的时候还是原值，因为put和get方法并没有加锁。

正确使用HashMap

在项目中我们经常用HashMap来缓存数据，但是阿里开发手册规范写明，创建HashMap时候，要指定HashMap的容量，最好是2的幂。

为什么是2的幂

答案：这样是为了保证位运算方便，这样可以减少hash碰撞，数据分配均匀。

利用HashMap缓存数据

这个是经常使用到的优化，这里面要关注的是多线程情况下，HashMap的线程安全问题，在多线程情况下，更推荐使用CurrentHashMap

利用HashMap减少for循环

我们来看一个算法题：

输入数组 a = [1,2,3,4,5,5,6 ] 中，查找出现次数最多的数值。

第一种解法：

public void s1() {
    int a[] = { 1, 2, 3, 4, 5, 5, 6 };
    int val_max = -1;
    int time_max = 0;
    int time_tmp = 0;
    for (int i = 0; i < a.length; i++) {
        time_tmp = 0;
        for (int j = 0; j < a.length; j++) {
            if (a[i] == a[j]) {
            time_tmp += 1;
        }
            if (time_tmp > time_max) {
                time_max = time_tmp;
                val_max = a[i];
            }
        }
    }
    System.out.println(val_max);
}

可以发现，这是一种常见的思维，用了双重循环，遍历了两次，时间复杂度是 $O(n^2)$

那么还要什么更优的解法嘛，可以引入HashMap，记录下每个元素出现的次数，解法如下：

public void s2() {
    int a[] = { 1, 2, 3, 4, 5, 5, 6 };
    Map<Integer, Integer> d = new HashMap<>();
    for (int i = 0; i < a.length; i++) {
        if (d.containsKey(a[i])) {
            d.put(a[i], d.get(a[i]) + 1);
        } else {
            d.put(a[i], 1);
        }
    }
    int val_max = -1;
    int time_max = 0;
    for (Integer key : d.keySet()) {
        if (d.get(key) > time_max) {
            time_max = d.get(key);
            val_max = key;
        }
    }
    System.out.println(val_max);
}

上述解法，也用了两层for循环，但是不是嵌套的，所以时间复杂度是O(2n),由于时间复杂度和系数无关，所以上述解法的时间复杂度为 $O(n)$

在大多数业务场景下去除嵌套循环，都可以采用上述方式，可以减少时间复杂度，但也是有前提条件的，前提条件就是外层或者内层循环的遍历次数是已知数据量较小，过大的数据量，可能会导致内存溢出，而且过多的数据，HashMap也会发生Hash碰撞，存储结构会变成数组+链表，甚至+红黑树，这个时候的HashMap查询复杂度就会变成O(n)或者O(logn)。

HashMap需要我们进行正确的使用他，但是不能滥用，我之前在的一家公司，就见过有人把10万条数据读取到HashMap上存储，每条数据所在内存还比较大，然后进行转换，到4万条数据的时候，就内存溢出了。

HashMap是存储在内存上的，使用的时候，一定要尽量避免内存溢出情况。

HashMap扩容

HashMap的扩容是没有太多变化的。

其实本文没有去讲JDK8的扩容机制，主要去讲了JDK8HashMap的优化点，以及如何使用HashMap去优化我们的代码。

其实扩容机制还有一个问题：为什么HashMap的负载因子是0.75？

答案：假设负载因子为1的情况，那么一个默认容量为16的HashMap，只有当table数据结构16个位置都被占满了，才会发生扩容，那么出现Hash冲突的情况会增加，底层的红黑树变得异常复杂，牺牲了时间，保住了空间。反之过小的负载因子，会过早的进行扩容，Hash冲突减小了，可是牺牲了空间，0.75是一个中庸的选择。

最后

下次，我们看看CurrentHashMap是如何保证线程安全的，以及其他的Map；以及谷歌的开源项目Guava中那些比较特殊的Map。

题外话：因为年前自己也搭了个人博客，想着不写点什么，可惜了，所以现在开始，后续保证一周两篇的输出，也督促自己不断加强学习。

本文由博客群发一文多发等运营工具平台 OpenWrite 发布

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,602评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,442评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,878评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,306评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,330评论 5赞 373
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,071评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,382评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,006评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,512评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,965评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,094评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,732评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,283评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,286评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,512评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,536评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,828评论 2赞 345