面试问题
- 谈一下HashMap的底层原理是什么
- 谈一下hashMap中put是如何实现的
- 谈一下hashMap中什么时候需要进行扩容,扩容resize()又是如何实现的
- 谈一下hashMap中get是如何实现的
- 谈一下HashMap中hash函数是怎么实现的,还有哪些hash函数的实现方式
- 为什么不直接将key作为哈希值而是与高16位做异或运算
- 为什么是16?为什么必须是2的幂
- 当两个对象的hashCode相等时会怎么样
- 如果两个键的hashcode相同,你如何获取值对象
- 如果HashMap的大小超过了负载因子(load factor)定义的容量,怎么办
- HashMap和HashTable的区别
- HashMap的参数loadFactor作用是什么
- 为什么引入红黑树
- 平时在使用HashMap时一般使用什么类型的元素作为Key
谈一下HashMap的底层原理是什么
基于hashing的原理,jdk8后采用数组+链表+红黑树的数据结构。我们通过put和get存储和获取对象。当我们给put()方法传递键和值时,先对键做一个hashCode()的计算来得到它在bucket数组中的位置来存储Entry对象。当获取对象时,通过get获取到bucket的位置,再通过键对象的equals()方法找到正确的键值对,然后在返回值对象。
谈一下hashMap中put是如何实现的
- 计算关于key的hashcode值(与Key.hashCode的高16位做异或运算)
- 如果散列表为空时,调用resize()初始化散列表
- 如果没有发生碰撞,直接添加元素到散列表中去
- 如果发生了碰撞(hashCode值相同),进行三种判断
- 若key地址相同或者equals后内容相同,则替换旧值
- 如果是红黑树结构,就调用树的插入方法
- 链表结构,循环遍历直到链表中某个节点为空,尾插法进行插入,插入之后判断链表个数是否到达变成红黑树的阙值8;也可以遍历到有节点与插入元素的哈希值和内容相同,进行覆盖。
- 如果桶满了大于阀值,则resize进行扩容
谈一下hashMap中什么时候需要进行扩容,扩容resize()又是如何实现的
当数组table的size达到阙值时即++size > load factor * capacity 时,也是在putVal函数中。
扩容需要重新分配一个新数组,新数组是老数组的2倍长,然后遍历整个老结构,把所有的元素挨个重新hash分配到新结构中去。
谈一下hashMap中get是如何实现的
对key的hashCode进行hashing,与运算计算下标获取bucket位置,如果在桶的首位上就可以找到就直接返回,否则在树中找或者链表中遍历找,如果有hash冲突,则利用equals方法去遍历链表查找节点。
谈一下HashMap中hash函数是怎么实现的,还有哪些hash函数的实现方式
对key的hashCode做hash操作,与高16位做异或运算。
还有平方取中法,除留余数法,伪随机数法。
为什么不直接将key作为哈希值而是与高16位做异或运算
因为数组位置的确定用的是与运算,仅仅最后四位有效,设计者将key的哈希值与高16为做异或运算使得在做&运算确定数组的插入位置时,此时的低位实际是高位与低位的结合,增加了随机性,减少了哈希碰撞的次数。
为什么是16?为什么必须是2的幂
- 为了数据的均匀分布,减少哈希碰撞。因为确定数组位置是用的位运算,若数据不是2的次幂则会增加哈希碰撞的次数和浪费数组空间。
- 输入数据若不是2的幂,HashMap通过一通位移运算和或运算得到的肯定是2的幂次数,并且是离那个数最近的数字。
当两个对象的hashCode相等时会怎么样
会产生哈希碰撞,若key值相同则替换旧值,不然链接到链表后面,链表长度超过阙值8就转为红黑树存储。
如果两个键的hashcode相同,你如何获取值对象
HashCode相同,通过equals比较内容获取值对象。
如果HashMap的大小超过了负载因子(load factor)定义的容量,怎么办
超过阙值会进行扩容操作,概括的讲就是扩容后的数组大小是原数组的2倍,将原来的元素重新hashing放入到新的散列表中去。
HashMap和HashTable的区别
相同点:都是存储key-value键值对的
不同点:
- HashMap允许Key-value为null,hashTable不允许;
- hashMap没有考虑同步,是线程不安全的。hashTable是线程安全的,给api套上了一层synchronized修饰;
- HashMap继承于AbstractMap类,hashTable继承与Dictionary类。
- 迭代器(Iterator)。HashMap的迭代器(Iterator)是fail-fast迭代器,而Hashtable的enumerator迭代器不是fail-fast的。所以当有其它线程改变了HashMap的结构(增加或者移除元素),将会抛出ConcurrentModificationException。
- 容量的初始值和增加方式都不一样:HashMap默认的容量大小是16;增加容量时,每次将容量变为"原始容量x2"。Hashtable默认的容量大小是11;增加容量时,每次将容量变为"原始容量x2 + 1";
- 添加key-value时的hash值算法不同:HashMap添加元素时,是使用自定义的哈希算法。Hashtable没有自定义哈希算法,而直接采用的key的hashCode()。
HashMap的参数loadFactor作用是什么
loadFactor表示HashMap的拥挤程度,影响hash操作到同一个数组位置的概率。默认loadFactor等于0.75,当HashMap里面容纳的元素已经达到HashMap数组长度的75%时,表示HashMap太挤了,需要扩容,在HashMap的构造器中可以定制loadFactor。
为什么引入红黑树
JDK 1.8 以前 HashMap 的实现是 数组+链表,即使哈希函数取得再好,也很难达到元素百分百均匀分布。当 HashMap 中有大量的元素都存放到同一个桶中时,这个桶下有一条长长的链表,这个时候 HashMap 就相当于一个单链表,假如单链表有 n 个元素,遍历的时间复杂度就是 O(n),完全失去了它的优势。针对这种情况,JDK 1.8 中引入了 红黑树(查找时间复杂度为 O(logn))来优化这个问题。但是链表大于8的概率是非常非常低的。
平时在使用HashMap时一般使用什么类型的元素作为Key
选择Integer,String这种不可变的类型,像对String的一切操作都是新建一个String对象,对新的对象进行拼接分割等,这些类已经很规范的覆写了hashCode()以及equals()方法。作为不可变类天生是线程安全的。如果要使用自定义类做为Key,就需要重写hashCode()以及equals()方法。红黑树在做比较的时候使用的是System.identityHashCode()方法,是不需要做特殊处理的。