数据重复数据删除的down和dirty

从本质上讲,重复数据删除是一个简单的概念。存储的数据将被解析为重复序列,当发现重复序列时,将在重复数据的位置插入指向第一个实例的指针。

例如,使用支持重复数据删除的产品备份如果有20个收件人收到了相同的附件,那么Exchange服务器只存储该附件的第一个实例,所有其他实例都指向它。

在这种方案下,不同文件的许多相似部分只需要存储一次。例如,如果文档的前几行包含该文档的路径名,那么该路径名对于文件夹中的所有文档来说通常是相同的。

如果路径名是40个字符长,并且所有文件的前29个字节相同,那么所有这些文件中第一个字节之后的29个字节将被一个指针替换。由于许多类型的文件具有不同文件之间相似的结构元素,而且PowerPoint或PDF文档可能包含与原始Word文档相同的文本,因此相同的文本字符串在许多文档中出现。

重复数据删除可以发生在文件级、块级或子块级供应商把“blocklet”和其他的称为“chunklet”。数据块的大小越小,从重复数据删除中获得的效果就越大,尽管这是以额外的处理和更大的代价为代价的数据库

如果重复数据删除发生在文件级,则整个文件需要重复数据删除。如果在块级别运行,那么整个数据块——无论是512字节还是4,096字节——对于要放置的指针必须是相同的。如果运行在块级别,只需几十个相同的字符就可以用指针替换,从而产生更高的有效压缩比。当用于索引和处理这些短字符串的空间大于用短指针替换重复字符串所节省的时间时,就会达到收益递减点。

除了执行重复数据删除的级别外,测试的虚拟磁带库设备之间的另一个主要区别是,重复数据删除是在数据移动时直接发生,还是在使用后处理措施之后发生。

这两种方法都有可能引发问题。内联处理可能限制整体网络吞吐量,而后处理最初会使用更多的磁盘空间,直到重复数据删除过程完成。


<返回主测试

了解更多关于这个主题的信息

磁带库买家指南

NetApp首次推出全文件重复数据删除

05/15/07

勤快的CTO揭秘重复数据删除

05/04/07

加入网络世界社区足球竞猜app软件脸谱网LinkedIn对自己最关心的话题发表评论。

版权©2007足球竞彩网下载

2021年IT薪资调查:结果已经出来了