今天首先给大家介绍的是密码学中的哈希算法,哈希算法大家应该不陌生了,最突出的应用就在于比特币的挖矿了,简单回顾下挖矿就是计算区块的哈希值,通过生成区块头部的随机数来调整每次哈希的结果,使得计算出来的区块的哈希值符合一个特定标准。那么哈希到底是什么,为什么挖矿这么重要的工作要用哈希算法,下面我们就分别从概念到原理一一介绍。
哈希算法概念
哈希算法,又称散列算法,哈希是英语hash的音译,hash本身的意思是剁碎、混杂、拼凑,所以同样用来做散列哈希的我国国密标准SM3被称为杂凑算法。
哈希算法就是指一种把任何长度的数据提炼出固定长度的数字“指纹”的方法。哈希算法有一个输入和一个输出,输入时任意长度的数据,在算法内部不管输入的数据是何种形式,都以单纯的比特序列来处理,简单来说对于哈希算法,它看到的输入就是一串由0和1组成的二进制数。哈希算法的输出就是最后的哈希值或者散列值,具体来说就是哈希算法把将数据打乱混合,压缩成摘要,使得数据量变小,重新创建一个叫做哈希值的指纹。
哈希算法的性质
哈希算法的概念很简单,但是简单的概念背后隐藏着大的学问,包括我们为什么要做哈希运算,什么样的哈希算法是可用有效的,我们透过哈希算法的性质这一角度来一一分析。
单向性
哈希算法必须具备单向性,就是只能由输入的数据或者消息计算出一个定长的哈希值,而不能通过这个哈希值反向推算出输入的数据或者消息。正如同将一块玻璃砸的粉碎很容易,却无法将碎片重新拼凑成一块完整的玻璃。
在这里一些头脑反应很快的人可能会联想到加密解密,认为哈希算法其实就是对输入的数据进行了加密,我只需要对哈希值进行逆向的反解就能得到原先的数据,这是想法明确的说是错误的,在哈希算法的概念中我们看到,哈希的过程是把输入数据本身进行粉碎拼凑,最后固定长度输出,而不是对数据进行加密,依据数据长度得到加密结果。或者说哈希值是代表原始输入数据的指纹,而不能利用指纹复原出原始数据。
根据任意长度的消息计算出固定长度的散列
哈希算法生成的哈希值的长度必须是固定的,而且是针对任意长度的输入数据,这一性质保证了哈希算法的易用性,因为哈希算法的一个使用目的就是用最后的哈希值来代表输入数据,那么如果最后的哈希值很长或者不固定,夸张一点,最后的哈希值跟原始数据一样长,那么通过哈希值的对比来确定原始数据就跟直接校验原始数据一样费力,没有区别了。所以说最后的长度要控制在一个固定的合适的值,这样才能体现出哈希值作为原数据指纹或者说摘要的特征。
算法效率高,计算哈希值的时间短
这个性质保证不管数据有多长,都能在可接受的范围内得到哈希结果。当然数据越长,计算时间越长这是毋庸置疑的,但即使数据足够大,哈希算法的计算时间也在可接受范围内。
不同的输入就有不同的输出
可以说哈希算法被发明的目的之一就是根据此需求来的,这也成为了哈希算法的一大特性。利用这一特性可以实现对数据完整性和一致性的判定,只有一模一样的数据经过同一个哈希运算得到的哈希值才是一样的,如果数据发生了哪怕1比特的变化,这1比特的概念就是计算机内存中的01二进制数列中某个0变成了1或者某个1变成了0,都会对哈希的结果哈希值产生影响,而且从上面的介绍中可以看到无论输入数据的长度大小,都会产生定长的哈希值,这样对比结果快速方便。对于数据的防篡改、防缺失都是很好的校验方式。
但是在数学上一串任意长度的数据经过一个函数算法的运算产生定长数据,那么该结果是一定会存在重复性。但是哈希算法就是将该可能性利用单向性将找到两条不同消息产生相同哈希值的进行降低,甚至为0。这种两个不同的数据产生相同的哈希值的现象称为碰撞。
几大成熟的哈希算法介绍
MD系列哈希算法
MD就是MessageDigest的简称,直译为消息摘要,主要发展历程及家族成员包括MD2、MD4和MD5,都是产生128位长度的哈希值。但是不幸的是目前MD系列的哈希算法都发生过碰撞发。在2004年8月美国的国际密码学会议上,来自中国山东大学的王小云教授做了破译MD5、HAVAL-128、 MD4和RIPEMD算法的报告,公布了MD系列算法的破解结果。宣告了固若金汤的世界通行密码标准MD5的堡垒轰然倒塌,引发了密码学界的轩然大波。这里的破译并不是破译了哈希算法,进行逆推输入数据,而是提高了了碰撞发生的概率。