分享到:

主存储优化的又一个轮回

今天,重复数据删除(Data Deduplication)已经成了存储业界最流行的一项技术。几乎所有主流存储厂商都已经推出了重复数据删除产品。与此同时,高速硬件数据压缩(Hardware Data Compression)技术也受到了用户的青睐,它不仅成了高端虚拟磁带库的必备功能,而且在归档、备份、持续数据保护等次级存储(Secondary Storage)应用中获得了广泛认可。$$    重复数据删除成主流$$    重复数据删除与数据压缩技术在系统功能上相似,都能显著减少存储的容量,提高系统的运行效率。因此,重复数据删除和数据压缩这两种技术又被统称为数据缩减(Data Reduction)或容量优化(Capacity Optimization)技术。通常情况下,利用数据压缩技术可以实现2∶1~3∶1的数据压缩比,而利用重复数据删除技术在备份应用中可以实现10∶1~20∶1的数据压缩比。综合应用数据压缩与重复数据删除两种技术后...  (本文共3页) 阅读全文>>

《科技创新导报》2018年30期
科技创新导报

重复数据删除技术专利技术综述

1全球专利性分析1.2 IPC分布1.1各国专利申请量从图2来看,G06F17、G06F12、G06F3是重复数据删除从图1来看,截至2017年底,美国、中国、韩国、日本的申技术专利申请中的主要IPC分类号,涉及:特定功能的数据请量位居全球前四位。其中,美国专利申请量最大,中国处理方法、在存储器系统中的寻址、向载体的输入输出。可见,重复数据删除技术的重点主要在算法研究上,在其他虽然起步较晚,但近几年在存储器领域的研究也逐渐深领域的应用还有待进一步拓展。入,同时市场需求高,表现出在各领域的均衡且快速的发1.3主要申请人展,位居第二;韩国、日本专利申请量较其他国家也较高,图3展示了全球申请的申请人,EMC公司占第一位,但受科研团队建设和市场空间的限制,可以看出其申请量IBM位居第二,美国企业在技术上有着巨大优势。中科院、远远低于中美两国。华为等科研单位、企业虽有突出成果,但从申请量来看,图1各国申请量排名图2全球IPC分布情况图3主...  (本文共2页) 阅读全文>>

《信息系统工程》2017年04期
信息系统工程

基于重复数据删除技术的存储系统分析

一、引言随着社会信息化的不断推进,数据存储占用空间越来越大;2011年,全世界的数据增长量突破1.8ZB(1ZB=1012GB)[1]国际数据公司(International Data Corporation)研究表明[2]到2020年,全世界每年的数据总量将达到40ZB。数据的爆炸式增长使得企业面临的存储和管理数据的成本原来越高,数据备份和恢复的时间越来越长,数据中心的能耗也越来越严重。如何缓解企业数据中心存储容量成分和运营成本成为当前数据存储领域的严峻挑战。研究发现[3],在应用系统所保存的数据中,高达60%的数据是冗余的,在备份和归档系统中,数据冗余量达到80%-90%,而且随着时间的推移,冗余数据量将不断上升。因此,如何有效的消除冗余数据,缩减存储系统数据存储量,缓解数据爆炸式增长问题,最大程度的利用现有资源成为一个热门的研究课题,而重复数据是其中一种消除冗余技术,它通过删除存储系统或传输数据流中重复的数据块或文件,减少...  (本文共4页) 阅读全文>>

《电子制作》2016年04期
电子制作

集群重复数据删除策略的研究

0引言随着大数据时代的发展,数据量正在爆炸式增长,数据更新变化也在时刻进行。数据量从TB上升到PB甚至EB,随着数据集关联性的日益繁杂,面向云环境的集群中心会产生大量冗余数据。调查发现云端数据中心有60%以上数据是冗余的,这就为数据同步提出了巨大挑战。为支持云环境下分布式存储的特点,单一的数据同步技术已难以满足节省存储空间和系统扩展的需求,集群内所有节点之间进行数据去重的数据同步技术应运而生。集群重复数据删除是在存储系统全局范围内进行分布并行的数据删重技术。它通过有效的数据路由指导策略将客户端上传的数据分发到集群内的存储节点进行数据删重。1 Bloom Filter我们假设Bloom Filter使用一个长度为n的位数组N,首先将位数组N的所有位初始化为0。设定一个包含m个元素的集合S={x1,x2,…xm},Bloom Filter使用k个相互独立的哈希函数h1,h2,…,hk,它们分别将集合S中的每一个元素映射到位数组{1,...  (本文共2页) 阅读全文>>

《河南科技》2014年16期
河南科技

重复数据删除专利技术综述

1重复数据删除的基本概念重复数据删除是一种数据压缩方法,旨在减少存储系统中的存储容量,通常用于备份系统。它的工作方式是查找文件中的重复数据块,然后将其用索引/元数据进行取代,也就是说不同文件或相同文件可以通过共享一份同样的数据块,将其余重复的数据块进行删除以达到减少存储容量的目的。基于块的重复数据删除是目前主流且热门的重复数据删除方法,它是一种在线删除数据的方法,即不需要开辟空间缓存数据量,而是随着数据流的输入不断执行重复数据删除操作。具体过程为:先将数据流分块,接着计算数据块的哈希值作为该块的ID号,然后判断ID号是否一致,若一致表明数据块已经存储,便不再存储该数据块。基于块的重复数据删除可以分为三种粒度的重复数据删除:(1)基于相同文件的重复数据删除。它的工作方式是:先以整个文件为单位采用SHA-1或MD4算法计算出哈希值,然后与已经存储的哈希值进行比较。若是有相同值,则认为文件已经存储,不存储该文件;否则存储该文件,并更新...  (本文共3页) 阅读全文>>

《工业控制计算机》2013年12期
工业控制计算机

烟草工业数据灾备中重复数据删除技术研究

1工业数据灾备灾难性事故所导致的信息系统崩溃的事件时有发生。在烟草工业,随着烟草一体化建设的推进,数据中心的范畴已逐步形成,数据和系统也逐步集中。结合小型机的双机容错技术,数据中心顺利降低了单点故障的风险,为业务提供持续和有效的服务能力。然而,随着系统和数据的集中,所有数据存储在一个机房,如果灾难性事故导致机房受到破坏,其内的所有数据包括备份数据也会随之破坏,其带来的风险和损失是无法估量的。而数据异地备份能有效解决这个问题。随之而来的问题是要降低数据的存储容量和降低数据网络传输的开销以及加快备份速度。烟草工业数据主要存在以下两个特点:1)每天新增数据量大。比如:仅仅在销售环节,全国零售户有大概500万家,平均每周进化一次,假设平均每家只销售15个规格,那么平均每天产生销售记录数为:500×15÷7≈1070(万)。2)数据变动大、重复率高。比如,在笔者所参与的综合营销平台中,仅办公自动化子系统,每天文件流转、版本修订、邮件附件抄...  (本文共2页) 阅读全文>>