我们希望候选者具有手动实现HashMap的能力;研究过JDK中HashMap的源代码,以及不同版本JDK中使用的优化机制。
在java面试中集合类似乎已经是绕不开的话题,对于一个中高级java程序员来说如果对集合类的内部原理不了解,基本上面试都会被pass掉。下面从面试官的角度来聊聊一个候选者应该对HashMap了解到什么程度才算是合格。
问题一:在日常开发中使用过的java集合类有哪些?
一般应聘者都会回答ArrayList,LinkedList,HashMap,HashSet等等。如果连这几个集合类都不知道,基本上可以pass了。
问题二:能描述一下HashMap的实现原理吗?
其实HashMap是典型的空间换时间的一种技术手段。如果面试者在这个问题中不能很好的阐述HashMap的实现原理,比如不知道如何解决hash冲突,不知道loadFactor这样的核心概念以及扩容机制。基本上我不会做深入考察了,可以pass了。
问题三:平时在使用HashMap时一般使用什么类型的元素作为Key?
面试者通常会回答,使用String或者Integer这样的类。这个时候可以继续追问为什么使用String、Integer呢?这些类有什么特点?如果面试者有很好的思考,可以回答出这些类是Immutable的,并且这些类已经很规范的覆写了hashCode()以及equals()方法。作为不可变类天生是线程安全的,而且可以很好的优化比如可以缓存hash值,避免重复计算等等,那么基本上这道题算是过关了。
问题四:如果让你实现一个自定义的class作为HashMap的key该如何实现?
这个问题其实隐藏着几个知识点,覆写hashCode以及equals方法应该遵循的原则,在jdk文档以及《effective java》中都有明确的描述。当然这也在考察应聘者是如何自实现一个Immutable类。如果面试者这个问题也能回答的很好,基本上可以获得一点面试官的好感了。
问题四延伸:你能设计一个算法(输入是java源文件),判断一个类是否是Immutable的吗?
这道题考察面非常非常广。如果这个问题面试者回答上了,我觉得面试者的基础知识无需考察了。可以继续考察高并发与分布式架构设计了。
问题五:如何衡量一个hash算法的好坏,你知道的常用hash算法有哪些?
如果面试者的技术面比较宽,或者算法基础以及数论基础比较好,这个问题才可以做很好的回答。首先,hashCode()不要求唯一但是要尽可能的均匀分布,而且算法效率要尽可能的快。如果面试者能回答出一些常用的算法,比如MurMurHash(萌萌哒的名字)基本上已经可以俘获面试官了。如果面试者有编译器的背景说出了如何在编译领域使用完美哈希的场景,那就太棒了,毕竟编译原理学的好的人太少了。当然不要忘记了,还可以再考察一下java中String类的hashCode()的实现:
public int hashCode() {
int h = hash;
if (h == 0 && count > 0) {
int off = offset;
char val[] = value;
int len = count;
for (int i = 0; i < len; i++) {
h = 31*h + val[off++];
}
hash = h;
}
return h;
}
为什么 h = 31 * h + val[off++];
这一行使用31
,而不是别的数字,这是一个魔术吗?
如果都结束了,不要忘了再问一句你知道hash攻击吗?有避免手段吗?就看面试者对各个jdk版本对HashMap的优化是否了解了。这就引出了另一个数据结构红黑树了。可以根据岗位需要继续考察rb-tree,b-tree,lsm-tree等常用数据结构以及典型应用场景。
问题六: HashMap是线程安全的吗? 如果多个线程操作同一个HashMap对象会产生哪些非正常现象?
其实这已经开始考察面试者对并发知识的掌握情况了。HashMap在resize时候如果多个线程并发操作如何导致死锁的。面试者不一定知道,但是可以让面试者分析。毕竟很多类库在并发场景中不恰当使用HashMap导致过生产问题。
问题七: ConcurrentHashMap vs HashTable 他们是如何处理并发的?为什么有了ConcurrentHashMap 没有把 HashTable 用@Deprecated注解废弃掉?
这个时候问题已经升级了,希望面试者分析过这两个类的源代码。我们是希望面试者能够知道ConcurrentHashMap 的内部实现原理,而且几乎是个硬性要求了。后一个问题似乎更难一些,主要是进一步考察面试者对细节的一些思考。
问题八:假如在一个没有GC的语言(比如c语言)中实现一个HashMap,如何处理表扩容以及收缩问题?
现在很多内存数据库,比如redis内部使用的还是HashMap这种数据结构,但是在数据量特别大的时候比如100W的记录数,在遇到扩容的时候如果暴力的扩容2倍,然后做rehash,肯定是有问题的。那么如何避免呢?当缓存的数据不断的被删除或者到期失效,如何有效的管理内存空间呢?这些都是值得面试者思考的问题。
其他问题
可以追问一些技术实现细节,比如为什么HashMap中bucket的大小为什么是2的幂之类的实现细节。
HashMap涉及的知识点特别多,文中的一些问题做了简要的回答以及提示。我并不会给出所谓的标准答案,其实在面试的过程中面试官并不要求面试者对所有问题都给出答案,重要的还是要考察面试者对问题的思考过程。有些问题,比如问题一、问题二、属于元知识的考察,不知道是不可原谅的,但是后面的一些问题比如问题四扩展,就很开放。是我在思考如何让编译器做更多的编译检查,以及如何对源代码做更多的静态分析考虑的问题。