刷题的时候,用了java的hashset,泛型里面用了int[], 但是总是remove不成功,debug了下发现hash不成功,查了下源代码,貌似泛型里面只能用object。刚开始以为可能hash的是object的地址,但是想起来,如果是gc了转移新生代老生代的话,那么hash不就没用了么。决定去深扒下代码。
set采用的和hashmap一样的方法,hashmap的源代码是这样的:
static final int hash(Object key) {
int h;
return (key ==null) ?0 : (h = key.hashCode()) ^ (h >>>16);
}
理论上如果直接用32位的int值,从-2147483648到2147483648,40多亿的数组,如果不是跑大数据的话,应该平时也就够了。但内存不够,如果只取后几位的话,概率分布不好的话,很可能出现一个桶已经满了,剩下的空着的情况,因此java采取了高半区和低半区做异或。那么h又是怎么来的呢,hashcode是如何实现的?
继续扒代码,发现是native,放弃,下载openjdk开扒。
这是c里面的:
JVM_ENTRY(jint, JVM_IHashCode(JNIEnv* env, jobject handle))
JVMWrapper("JVM_IHashCode");
// as implemented in the classic virtual machine; return 0 if object is NULL
returnhandle ==NULL?0: ObjectSynchronizer::FastHashCode (THREAD, JNIHandles::resolve_non_null(handle)) ;
JVM_END
FastHashCode一百多行就不贴了
看了半天,发现,hashcode并不是基于地址做的hash,至少openjdk8不是,而是基于thread state,只hash一次,缓存存到object header的mark word里面,还有什么biasblock没看懂==
google一番,搜到了别人写的才明白:
https://srvaroa.github.io/jvm/java/openjdk/biased-locking/2017/01/30/hashCode.html