重复数据删除：降低存储膨胀

通过信息世界”的员工

企业数据爆炸可能会使存储系统不堪重负，尤其是备份层。以下是重复数据删除技术的帮助

数据存储需求持续增长，使备份和灾难恢复系统不堪重负，同时需要更多的在线主轴、使用更多的电力和产生更多的热量。没有人认为数据增长的爆炸式增长会有所缓解。这就使得IT行业需要寻找至少可以减轻负担的技术解决方案。

一个特别适合备份和灾难恢复的解决方案是数据重复删除，它利用了业务数据中的大量冗余。消除重复数据可以根据所使用的技术和冗余程度，将所需的存储空间从10:1减少到50:1甚至更多。在数据重复数据删除的帮助下，管理员可以降低成本，减少备份需求，并在紧急情况下加速数据恢复。

[准备好勺子上保持在InfoWorld的控制之下存储“数据重复数据删除深度挖掘“PDF专题报告|。更好地管理你的公司的信息过载我们企业数据爆炸的通讯。]

重复数据删除有几种不同的形式，每种都有自己的方法和在备份和灾难恢复场景中的最佳角色。最终，几乎没有人怀疑数据重复数据删除技术将扩展到备份层之外，并在业务存储系统中应用其优点。但首先，让我们看看为什么数据重复数据删除对如此多的组织具有如此大的吸引力。

数据太多，时间太少重复的数据散布在整个企业。文件被保存到数据中心的文件共享中，其他副本位于面向Internet的FTP服务2020欧洲杯预赛器上，另一个(或两个)副本位于用户的个人文件夹中。有时，在导出到另一个系统或更新到新软件之前，复制是作为备份版本进行的。用户删除这些多余的拷贝行吗?并非如此。

重复数据的一个典型例子是电子邮件爆炸。它是这样的:人力资源部门的某人想要向网络上的100个用户发送新的Internet可接受使用策略PDF。因此，他或她创建电子邮件，将其发送到邮件列表，附加PDF，并按下Send。邮件服务器的存储系统中现在有100个相同附件的副本。只需要一份附件，但是由于没有适当的重复数据删除系统，所有副本都放在邮件存储库中，占用了空间。

服务器虚拟化是另一个领域充斥着重复数据。虚拟化的整体思路是“少花钱多办事”，最大限度地提高硬件利用率，通过在一个物理服务器旋转起来的多个虚拟机。这相当于少硬件费用，降低使用成本，并且（很可能）更容易管理。

每个虚拟服务器都包含在一个文件中。例如,VMware使用单个VMDK（虚拟机磁盘）文件作为虚拟硬盘上的虚拟机。正如你所期望的，VMDK文件往往是相当大的 - 至少2GB的大小，通常要大得多。

一个虚拟机的强大功能是，管理员可以停止VM，复制VMDK文件和备份。只需重新启动机器，你就重新联机。现在什么与所有这些备份的情况发生？这是正确的 - 大量的存储在文件服务器上的重复文件。管理员保持工作的虚拟服务器产生新的虚拟机的“黄金镜像” - 更不用提备份副本。虚拟化是一个很好的方式，以获得最大的CPU和内存，但没有重复数据删除，虚拟硬盘实际上可以增加网络存储需求。

使劲备份系统你如何备份所有这些数据？旧的磁带备份系统的速度太慢，缺乏必要的能力。新的高端磁带系统具有性能和容量，但相当昂贵。而不管你的磁带驱动器有多好，墨菲定律有活蹦乱跳的磁带，当谈到恢复的趋势。

虚拟磁带库（虚拟磁带库）提供一个现代替代磁带，在配置的模拟标准的磁带驱动器使用硬盘。但代价是什么？附加主轴等于额外的成本和附加的功率消耗。虚拟磁带库是快速提供可靠的备份和恢复的目标，但如果有更少的数据备份，你必须降低硬件成本和运营成本，开始使用。

数据过剩增加了灾难恢复的难度，使得近线和离线存储的每个阶段都更加昂贵。在近行存储中保存备份的副本可以很容易地恢复丢失或损坏的文件。但是，根据备份集的大小和管理员想要保持方便的备份集的数量，您的近行存储可以是相当可观的。下一层是离线存储，由磁带或其他媒体副本组成，这些磁带或副本被扔进保险库或发送到其他安全位置。同样，如果数据集很大而且还在增长，那么这个离线媒体集必须进行扩展以适应。

许多灾难恢复计划包括将备份集通过WAN另一个地理位置。除非你的公司有雄厚的财力和可以负担得起一个非常快的WAN链接，这将是有益的备份集的大小保持在最低限度。这双去恢复数据。如果设置的是真正的大，试图从异地备份恢复将增加停机时间和沮丧。

定义重复数据删除和它的好处简单地说，重复数据删除的检测和从存储介质或文件系统删除重复数据的过程。重复数据的检测可以在文件，位或块级别，这取决于重复数据删除过程的类型和侵略性来执行。

当重复数据删除系统第一次看到一个文件或文件块时，该数据元素就会被识别出来。然后，从系统中删除每个后续相同的项，但是用一个小占位符进行标记。占位符指向数据块的第一个实例，以便在需要时重新组装已删除的数据。

这种重复数据删除过程减少了表示系统中所有索引文件所需的存储空间。例如，在一个文件系统中，每个员工的个人文件夹中有100份来自HR的相同文档，这个文件系统可以简化为原始文件的单个副本加上99个指向原始文件的小占位符。很容易看出这可以极大地降低存储需求——以及为什么备份经过处理的文件系统比备份原始文件系统更有意义。

重复数据删除技术的另一个好处是可以保持更多的备份集的近线存储的能力。随着备份磁盘空间的量减少，更多的“时间点”备份可以随时保持在磁盘上更快，更容易文件恢复。这也可以让你保持更长的备份历史记录。相反，具有该文件的三个版本恢复，用户可以有更多的人，使一个非常细粒度的方法来进行文件备份和包容的备份历史的负荷。

灾难恢复是另一个过程，从重复数据删除大大有利于。多年来，数据压缩是减少异地数据集的总体规模的唯一途径。添加重复数据删除和备份集更能减少。为什么传输相同的数据，每天晚上时设置只有一小部分改变的那一天？重复数据删除在灾难恢复是非常合情合理的：不仅是减少了传输时间，但广域网是用更少的总体流量更有效地使用。

请阅读InfoWorld的免费PDF报告，了解如何管理数据重复数据删除。数据重复数据删除深度挖掘，“ 包含：

如何重复数据删除真正起作用
文件 - ，比特，和块级重复数据删除相比
比较源、目标和内联去重卡
重复数据删除超出备份层

这篇文章中,“重复数据删除：降低存储膨胀”最初发表于InfoWorld.com。按照最新的发展信息管理在InfoWorld.com上。

了解更多关于存储的信息在InfoWorld的存储通道中。

这个故事，“数据去重:减少存储膨胀”最初是由信息世界。

加入网络世界社区吧足球竞猜app软件Facebook的和LinkedIn对那些顶级心态的话题发表评论。

工资调查:结果在