什么是重复数据删除,以及它是如何实现的?

通过消除数据集内的数据的冗余块 - 的重复数据删除 - 企业可以减少备份的大小90-99%。

盖蒂图片社

重复数据删除技术可以说是过去20年备份技术中最大的进步。它独自负责将大量备份数据从磁带转移到磁盘,并且它的受欢迎程度与日俱增。理解不同种类的重复数据删除技术(dedupe)对于任何研究备份技术的人来说都是非常重要的。

什么是重复数据删除?

Dedupe是识别和消除数据集中重复的块。它类似于压缩,只识别单个文件中的冗余块。重复数据删除可以在来自不同目录、不同数据类型、甚至不同位置的不同服务器的文件之间找到冗余的数据块。

例如,dedupe系统可能能够在电子表格中识别唯一的块并对它们进行备份。如果您更新它并再次备份它,它应该能够识别已更改的段并只备份它们。然后,如果你把它发邮件给同事,它应该能够识别你发送的邮件文件夹、他们的收件箱甚至他们笔记本电脑的硬盘上的相同块,如果他们在本地保存的话。它将不需要备份这些相同片段的额外副本;它只会识别他们的位置。

如何重复数据删除的工作?

dedupe通常的工作方式是将要被dedupe的数据分割成大多数人所称的数据。块是一个或多个连续的数据块。区块在哪里以及如何划分是许多专利的主题,但只要说每个产品都会创建一系列区块,然后与给定的dedupe系统看到的所有先前的区块进行比较就足够了。

比较的工作方式是,每个块通过一个确定性的密码散列算法运行,比如SHA-1、SHA-2或SHA-256,这就创建了所谓的a哈希。例如,如果在SHA-1散列计算器中输入“The quick brown fox jumps over The lazy dog”,就会得到以下散列值:
2FD4E1C67A2D28FCED849EE1BB76E7391B93EB12。(你可以在这里自己试用:https://passwordsgenerator.net/sha1-hash-generator/。)

如果两个块的散列匹配,则认为它们是相同的,因为即使最小的更改也会导致块的散列发生更改。SHA-1哈希是160位。如果为一个8 MB的块创建一个160位的散列,那么每次备份相同的块时就可以节省近8 MB。这就是为什么dedupe是如此节省空间的原因。

目标重复数据删除

目标重复数据删除是目前市场上销售的重复数据删除技术的最常见的类型。这个想法是,你买一个目标重复数据删除磁盘设备和发送备份到它的网络共享或虚拟磁带驱动器,如果该产品是虚拟磁带库(VTL)。分块和比较步骤的目标全部完成;没有它在源上完成。这可以让你获得重复数据删除的好处,而不改变你的备份软件。

这种增量方法允许许多公司将磁带转换为磁盘作为它们的主要备份目标。大多数客户将备份复制到磁带上,以备离线使用。一些预算更大的高级客户使用这些目标dedupe设备的复制功能来复制他们的离线备份。一个好的dedupe系统可以将一个典型文件的大小减少99%,将一个增量备份的大小减少90%,从而使所有备份的复制成为可能。(当然是在合理的范围内。并不是每个人都有足够的带宽来处理这种级别的复制。)

来源重复数据删除

来源重复数据删除发生在备份客户端上 - 在源 - 故名资源,或客户端dedupe。分块处理发生在客户机上,然后它将散列值传递给查找过程的备份服务器。如果备份服务器说某个给定块是惟一的,那么该块将被传输到备份服务器并写入磁盘。如果备份服务器说以前看到过给定的块,甚至不需要传输它。这节省了带宽和存储空间。

源重复数据删除的批评之一是,创建哈希的过程是一个资源密集型的操作,需要大量的CPU处理能力。虽然这是真实的,它一般是通过在需要转移备份CPU的量的减少显著偏移,因为90%以上的所有组块的将在任何给定的备份副本。

节约带宽也让重复数据删除源运行,其中目标的重复数据删除将无法运行。例如,它可以让企业来备份他们的笔记本电脑或移动设备,它们都使用互联网作为他们的带宽。与目标的重复数据删除系统备份这样的设备将需要的器具本地到每个设备被备份。这就是为什么源重复数据删除是用于远程备份的首选方法。

由于几个原因,在该领域中,源dedupe的安装数量没有目标dedupe的安装数量多。原因之一是,目标dedupe产品比大多数源dedupe产品稳定的时间更长。但是,最大的原因可能是目标dedupe可以增量地实现(即使用相同的备份软件,只更改目标),而源dedupe通常需要大规模地替换备份系统。最后,并不是所有的源代码-dedupe实现都是相同的,有些实现的道路比较坎坷。

重复数据删除加分和劣势

目标重复数据删除技术的主要优点是,你可以使用几乎任何备份软件使用它,只要它是一个设备支持。缺点是,你需要到处都是你要备份的设备,即使它只是一个虚拟设备。源重复数据删除的主要优点是相对的;你可以从任何地方备份字面上。这种灵活性可以创造一个备份的满足您的需求的情况,但恢复速度不这样做,所以一定要考虑到这一点。

加入对网络世界的社足球竞猜app软件区Facebook的LinkedIn对那些顶级心态的话题发表评论。
相关:

版权©2018足球竞彩网下载

IT薪资调查:结果在