随着经济的不稳定和对存储需求的爆炸式增长,几乎每个存储供应商都声称它可以减少你必须存储的数据量。减少数据足迹不仅可以降低硬件、软件、电力和数据中心空间的成本,还可以减轻网络和备份窗口的压力。2020欧洲杯预赛
但是你怎么知道该使用哪种技术呢?首先,您必须了解您的业务如何使用数据,并确定何时减少数据所节省的成本值得导致性能下降。
最适合您的技术并不取决于您所处的行业,而是取决于您所存储的数据类型。例如,重复数据删除通常不会为x射线、工程测试数据、视频或音乐带来显著的节省。但它可以显著降低备份虚拟机(例如服务器)的成本。这里有五种技术可以帮助您减少存储的数据量。
1.重复数据删除
重复数据删除——发现和消除存储在不同数据集中的重复数据块的过程——可以减少高达90%的存储需求。例如,通过重复数据删除,可以确保只存储发送给数百名员工的附件的一个副本。重复数据删除几乎已经成为备份、归档和几乎任何形式的辅助存储的需求,在这些存储中,访问速度比减少数据占用更重要。
医疗广告和营销公司Grey Healthcare Group的IT主管克里斯•沃特基斯(Chris Watkis)认为,由于使用了FalconStor Software Inc.的虚拟磁带库(Virtual Tape Library)存储设备的重复数据删除过程,备份数据的减少比例高达72:1。云存储服务供应商i365的首席技术官David Allen说,在微软Exchange、SharePoint、SQL Server和VMware虚拟机文件的混合工作负载下,数据减少了30:1到50:1。
数据可以在文件或块级别进行删除,不同的产品能够检查不同大小的块。在大多数情况下,系统进行的评估越细,节省的空间就越大。但是细粒度重复数据删除可能需要更长的时间,因此会降低数据访问速度。
重复数据删除可以在数据写入目标时进行预处理或内联;或后处理,在数据已存储在其目标上之后。The Server and StorageIO Group的高级分析师Greg Schulz说,如果后处理对满足快速数据移动的备份窗口至关重要,那么后处理是最好的。但他表示,如果你“有时间”,需要降低成本,那么就考虑进行预处理。
批评人士说,虽然内嵌重复数据删除可以以约20:1的比例减少存储的数据量,但它是不可扩展的,而且它会损害性能,迫使用户购买更多的服务器来执行重复数据删除。另一方面,Schulz说,后处理重复数据删除需要更多的存储作为缓冲区,这使得这些空间无法用于其他用途。
对于拥有多个服务器或存储平台的客户,企业范围内的重复数据删除通过消除存储在不同平台上的数据副本来节省成本。Randy Chalfant说,这一点很关键,因为大多数组织会为数据挖掘、ERP和客户关系管理系统等应用程序创建多达15份相同的数据副本。用户可能还想考虑使用单一重复数据删除系统,以便任何应用程序或用户在需要时更容易“补充”数据(将数据恢复到原来的形式),并避免多个系统之间的不兼容。
Schulz说,主要的重复数据删除产品可以执行预处理模式,直到达到某个性能阈值,然后切换到后处理模式。
另一个选项是基于策略的重复数据删除,它允许存储管理器根据文件的大小、重要性或其他标准选择哪些文件应该进行重复数据删除。
SFL Data为卷入诉讼的公司和律师事务所收集、存储、索引、搜索并提供数据,该公司找到了性能和数据减少之间的平衡。它正在部署Ocarina Networks的2400存储优化器,用于在BlueArc Mercury 50集群上“接近在线”存储压缩和重复数据删除的文件,该集群的可用容量可达2pb,根据用户的需要为这些文件重新补水。
SFL的技术总监露丝·汤森(Ruth Townsend)表示,“给文件补水会稍微拖慢访问时间,但这比告诉客户必须等两天”才能访问这些文件要好得多。他指出,通过重复数据删除和文件压缩,公司可以节省50%的空间。
2.压缩
压缩可能是最著名的数据简化技术,它是查找和消除字节重复模式的过程。它可以很好地处理数据库、电子邮件和文件,但对于图像就不那么有效了。它包含在一些存储系统中,但您也可以找到独立的压缩应用程序或设备。
重复和压缩:在一起更好吗?
一些供应商提供或将同时提供重复数据删除和压缩。其他的,如Ocarina,在优化之前对已经压缩的文件进行解码。Nexsan战略副总裁Randy Chalfant认为,数据应该在文件或操作系统级别进行压缩,并在存储目标上进行重复数据删除。基于云的重复数据删除和压缩供应商Asigra Inc.首先对数据进行压缩,然后进行重复数据删除,只存储对数据的更改。
是否、何时以及以何种顺序同时使用压缩和重复数据删除取决于一些因素,比如压缩是否会使重复数据删除软件更容易还是更困难地扫描冗余,你希望优化哪一层(主层还是辅层),以及产品在需要时将数据返回到可用表单的速度。
——罗伯特·l·席尔
实时压缩不会因为在修改或读取数据之前需要先解压缩而延迟访问或降低性能,适合数据库和在线事务处理等在线应用程序,Schulz说。他补充说,现代多核处理器的计算能力也使基于服务器的压缩成为某些环境的一个选项。
i365的艾伦说压缩的好处各不相同。对于SQL数据库,它可以以6:1或更多的比例减少数据,但对于文件服务器,这个比例更接近2:1。FalconStor营销副总裁Fadi Albatal表示,压缩在备份、二级或三级存储上是最有效的,对于“高度活跃”的数据库或电子邮件应用程序,压缩可以将存储需求减少2:1到4:1。信息管理服务公司Iron Mountain Inc.的首席营销长拉维(T.M. Ravi)说,当信息管理服务公司Iron Mountain Inc.对应用程序进行归档时,压缩和重复数据删除可以最多减少80%的存储空间。
IBM通过收购Storwize,将注意力集中在主存储的压缩上,Storwize的设备将压缩文件写回产生它们的NAS设备或其他存储层。IBM存储业务副总裁道格•巴洛格(Doug Balog)表示,Storwize正在对一款基于块的设备进行beta测试。
被Microsoft Office应用程序或流行的图像格式(如JPEG)压缩的文件不能用许多常用的压缩技术进行压缩,甚至可能会增大大小。Neuxpower Solutions Ltd.称,该软件可以在不影响图像质量的情况下将Office和JPEG文件压缩95%,因为它可以去除不必要的信息,比如元数据或细节,这些信息除非图像放大才能看到。戴尔正在收购Ocarina该公司表示,其产品提供了类似的功能,因为它们使用了针对不同类型内容进行优化的多种优化算法,而且它们有能力在各种压缩方法中测试和选择最佳的运行时效率。
重复数据删除和压缩是互补的。“当主要关注速度、性能和传输速率时,使用压缩。在存在高度冗余数据且希望节省更多空间的地方使用重复数据删除,”Schulz说。
3.基于策略的分层
基于策略的分层是根据数据的存放时间、访问频率或可用速度等标准将数据移动到不同类别的存储的过程(参见“储存的政治").除非策略要求彻底删除不需要的数据,否则这种技术不会减少您的总体存储需求,但它可以通过将一些数据移动到更便宜、但更慢的介质上来削减成本。
这个市场的卖主包括惠普公司(hewlett - packard Co .),在其StorageWorks X9000和DataGlobal GmbH中提供内置的策略管理和自动文件迁移,该公司表示,其统一存储和信息管理软件使客户能够分析和管理非结构化文件和其他信息,从而减少了60%至70%的电子邮件存储需求,约20%的文件服务器存储需求。
其他具有分层功能的产品包括Compellent Technologies的Storage Center 5、FalconStor的HotZone和SafeCache、3Par的Policy Advisor、EMC的快速以及F5 Networks的ARX系列文件虚拟化设备。
4.存储虚拟化
与服务器虚拟化的情况一样,存储虚拟化涉及到将多个存储设备“抽象”到单个存储池中,允许管理员根据需要在层之间移动数据。许多专家认为它是一种使能技术,而不是数据减速器,但其他人认为它与数据减速器有更直接的联系。
Actifio Inc.的数据管理系统使用虚拟化来消除备份和灾难恢复等功能对多个应用程序的需求。它的设备允许客户从一系列模板中选择管理各种数据集的服务水平协议。
使用这种方法,将适当的管理策略应用于数据的单个副本,定义数据的存储位置(例如)以及在备份和复制等功能期间如何重复数据删除。公司联合创始人兼首席执行官Ash Ashutosh称,Actifio可以将存储需求减少75%至90%。
5.自动精简配置
精简配置意味着将应用服务器设置为使用驱动器上的一定数量的空间,但在实际需要时才使用这些空间。与基于策略的存储一样,这种技术并没有减少总的数据占用,而是推迟了购买更多驱动器的需求,直到绝对必要的时候。
艾伦说,如果存储需求迅速增长,你必须“非常、非常迅速地做出反应”,以确保有足够的物理存储。如果您采用精简配置,那么您的需求越不可预测,就越需要更好的度量和管理工具。Schulz建议寻找能够识别用户需要跟踪的数据和应用程序的产品,不仅可以监视空间使用情况,还可以监视读/写操作,以防止出现瓶颈。
IBM是这个市场的供应商之一,它已经将精简配置扩展到“我们所有的存储控制器”,Balog说。HP在其P4000 SANs上提供精简配置收购3 par,保证其效用存储产品将减少客户50%的存储需求。Nexsan通过其SATABeast阵列提供精简配置。
在选择数据缩减策略之前,设置一些策略来帮助做出艰难的选择,比如何时为性能付费,何时通过减少数据足迹来节省成本。Schulz说,不要只关注减少比率,但要记住,在更大的数据集上,你可能会以更低的减少比率获得更多的节省。
不要被供应商术语所迷惑。压缩、重复数据删除、“只更改”备份和单实例化都是减少冗余数据的不同方法。如果有疑问,请根据业务效益和对数据的详细分析选择存储减少工具。
哪种重复数据删除适合你?
根据组织的削减目标和系统设置,重复数据删除系统可以满足许多不同的需求。这里有一个抽样:
* Nexsan通过其Assureon系统提供主数据和归档数据的后处理重复数据删除,并通过其重复数据删除SG产品提供备份数据的后处理重复数据删除。重复数据删除SG是基于FalconStor公司的重复数据删除软件引擎File-interface deduplication System,简称FDS。Nexsan战略副总裁Randy Chalfant说,结合单一实例数据,这提供了典型的1:5到1:15的削减比例。
* EMC备份恢复系统部门产品营销高级总监谢恩•杰克逊(Shane Jackson)表示,EMC Data Domain重复数据删除存储系统是为那些希望保留现有备份软件但需要从磁带转移到磁盘进行备份的客户设计的。他说,Data Domain支持结构化和非结构化数据,具有不同长度的块的重复数据删除,实现10:1到30:1的削减。EMC备份恢复系统部门的市场经理Philip Fote说,Avamar提供基于源的备份软件,具有全球重复数据删除功能,可以实现30:1到40:1的减少。