1. Hash是什么,它的作用
哈希算法(Hash Algorithm),又称散列算法,是一种从任意数据中提取小的数字的方法。散列算法就是一种以较短的信息来保数据唯一性的标志,这种标志与数据的每一个字节都相关,而且难以找到逆向规律。因此,当原数据发生改变时,其标志值也会发生改变。
2. Hash算法有什么特点
一个优秀的 hash 算法,将能实现:
- 正向快速:给定数据和 hash 算法,在有限时间和有限资源内能计算出 hash 值。
- 逆向困难:给定hash 值,在有限时间内很难逆推出数据。
- 输入敏感:原始输入信息修改一点信息,产生的 hash 值看起来应该都有很大不同。
- 冲突避免:很难找到两段内容不同的明文,使得它们的 hash 值一致(发生冲突)。
但在不同的使用场景中,如数据结构和安全领域里,其中对某一些特点会有所侧重。
3. Hash在管理数据结构中的应用
以HashMap为例,key(hash值)对应一个(或多个数据),key的作用是,对于抗碰撞的要求没有那么高。换句话说,hash出来的key,只要保证value大致均匀的放在不同的桶里就可以了。但整个算法的set性能,直接与hash值产生的速度有关,所以这时候的hash值的产生速度就尤为重要,如JDK中的String.hashCode():
public int hashCode() {
int h = hash;
if (h == 0 && value.length > 0) {
char val[] = value;
for (int i = 0; i < value.length; i++) {
h = 31 * h + val[i];
}
hash = h;
}
return h;
}
4. Hash在在密码学中的应用
在密码学中,hash算法的作用主要是用于消息摘要和签名,对整个消息的完整性进行校验。这对于抗碰撞和抗篡改能力要求极高,对速度的要求在其次。以MD5为例,其输出长度为128位,设计预期碰撞概率为1/(2^128),这是一个极小极小的数字.
5. Hash有哪些流行的算法
目前流行的 Hash 算法包括 MD5、SHA-1 和 SHA-2。
- MD4(RFC 1320)是 MIT 的 Ronald L. Rivest 在 1990 年设计的,MD 是 Message Digest 的缩写。其输出为 128 位。MD4 已证明不够安全。
- MD5(RFC 1321)是 Rivest 于1991年对 MD4 的改进版本。它对输入仍以 512 位分组,其输出是 128 位。MD5 比 MD4 复杂,并且计算速度要慢一点,更安全一些。MD5 已被证明不具备”强抗碰撞性”。
- SHA (Secure Hash Algorithm)是一个 Hash 函数族,由 NIST(National Institute of Standards and Technology)于 1993 年发布第一个算法。目前知名的 SHA-1 在 1995 年面世,它的输出为长度 160 位的 hash 值,因此抗穷举性更好。SHA-1 设计时基于和 MD4 相同原理,并且模仿了该算法。SHA-1 已被证明不具”强抗碰撞性”。
- 为了提高安全性,NIST 还设计出了 SHA-224、SHA-256、SHA-384,和 SHA-512 算法(统称为 SHA-2),跟 SHA-1 算法原理类似。SHA-3 相关算法也已被提出。
可以看出,上面这几种流行的算法,它们最重要的一点区别就是”强抗碰撞性”。