英文名儿:Data Deduplication
小简介
1.干嘛用的?
节约数据存储空间。在较大范围内,查找大块的重复数据。
这是一种 节约数据存储空间 的技术。在计算机中存储了很多重复数据,这些数据占用了大量硬盘空间,利用重复数据删除技术,可以只存储一份数据。另外一项节约存储空间的技术是数据压缩,数据压缩技术在比较小的范围内以比较小的粒度查找重复数据,粒度一般为几个比特到几个字节。而重复数据删除是 在比较大的范围内查找大块的重复数据,一般重复数据块尺寸在 1KB以上。
2.用到哪儿?
重复数据删除技术被广泛应用于网络硬盘、电子邮件、磁盘备份介质设备等。
3.有什么好处?
不同情境下,能节约硬盘空间、节约网络带宽、提升写入性能。
4.有哪几种类别?
按数据处理时间分:
在线重删:
指的是在数据存储到存储设备上的同时进行重复数据删除流程,在数据存储到硬盘之前,重复数据已经被去除掉了。
后重删:
指的是在写到存储设备的同时不进行重删处理,先把原始数据写到硬盘上,随后启动后台进程对这些原始数据进行重删处理。与在线重删相比较,后重删需要更高的硬盘性能,需要更多的硬盘数量。按数据处理粒度分:
文件级重删
块级别重删按数据块分块方法分:
变长分块重删
定长分块重删按数据处理位置分:
源端重删
目的端重删
怎么做
1.基于散列
2.基于内容识别
3.Diligent Technologies用于其ProtecTier VTL的技术
4.其他