共查询到18条相似文献,搜索用时 78 毫秒
1.
2.
3.
针对传统远程备份中大量冗余数据导致备份效率低下和存储空间浪费的问题,设计并实现了一个基于重复数据删除的远程备份系统。首先根据文件的内容用Rabin指纹将备份文件划分为变长的数据块,把每个数据块的相关信息发送到备份中心,在备份中心利用Google Bigtable及Leveldb的索引算法辅以布隆过滤器对数据块进行判重,最后只传输和存储不重复的数据块。实验结果表明,采用该系统备份相似的数据集能够有效删除其中的重复数据。对数据集进行增量备份,在增量数据变化不大时,相比Rsync备份有更少的网络流量。 相似文献
4.
在高误码率条件下,接收到的OpenXML复合文档往往因数据含错而无法打开,而在文档修复过程中,对信源中每个源文件内容源数据区的定界经常容易出错,针对该问题,提出了一种基于多重约束的OpenXML复合文档内容源数据区容错定界算法。通过对文档协议冗余的分析与归类,将内容源数据区定界问题转化为对起始位置序列的最佳估计问题。在通过适当放宽匹配条件完成粗定界的基础上,利用冗余信息中的约束关系构建代价函数对观测数据进行筛选,有效地剔除“虚警”情况,进而实现对内容源数据区起始位置序列的最佳估计。仿真结果表明,在参数设置合理的情况下,该方法具有较好的容错定界能力。 相似文献
5.
本文在对网格及Globus网格工具作了概括介绍的基础上,详细讨论了在网格环境中如何进行文件和对象的复制问题。并提出一种网格中复制文件体系结构,利用Globus数据网格工具进行文件复制。 相似文献
6.
随着互联网的发展,Web2.0和Mash-up逐渐成为Web环境中的主要应用形式.针对现有远程对象交换机制的局限性,本文以Atom文档格式与Atom发布协议为基础建立了一种更易被Web2.0和Mash-up应用的远程对象交换机制.在兼顾半结构化数据与强类型语言结构化要求的条件下,利用Atom文档格式解决了远程对象的封装问题;利用Atom发布协议解决了远程对象的操作问题.在此基础上,通过性能评估和综合比较,说明该机制具有实现简单、适应半结构化数据、在少量易变数据时性能好等优点. 相似文献
7.
随着国网公司信息化建设的不断推进,在整个电网的运检和管理的过程中都会产生海量的数据,这些数据中包含各场景产生的视频、图片、传感器数据和一些企业档案信息等非结构(异构)化数据.在面对如此大规模非结构化的数据存储要求时,传统关系型数据库已经表现的力不从心了.如何对此类数据进行高效地、廉价地和安全可靠地存储,并且可以快速检索与分析,是当下研究的重要热点课题之一.本文首先分析了电网大数据的产生及特征,然后综述了工业界大数据分布式文件存储技术,最后分析适合国网非结构化数据的分布式文件存储策略. 相似文献
8.
针对载有结构化数据的网页特点,提出了一种新的有效字段发现策略,据此设计了一个基于学习的自动去重方法.对样本网页集进行聚类分析并生成每类网页的包装器,识别出包装器中的有效数据字段;对有效数据字段进行映射,通过计算有效数据字段内容的相似度来判断网页是否重复.实验证明该方法对结构化Web数据的去重有很好的召回率和准确率. 相似文献
9.
云服务器中的数据往往以密文的形式存储,而加密密钥的不同会使相同的数据生成不同的密文,因此高效的数据安全去重技术成为云存储领域的研究热点.本文首先分析了数据安全去重技术面临的主要挑战,描述了数据安全去重的系统模型以及多种安全威胁,以云数据安全去重技术的实现机制作为分类依据,从基于内容加密的安全去重、基于PoW (proof of ownership)的安全去重、基于隐私保护的安全去重以及基于数据流行度的安全去重四个方面对近年来的研究工作进行了分析,归纳总结了各种数据去重技术的优点、局限性以及存在的共性问题,指出数据去重技术未来的发展趋势. 相似文献
10.
徐阳 《计算机工程与应用》2015,51(2):71-75
基于多服务器架构、为多用户服务的网络文件存储系统普遍存在资源分配不均,重复文件多,存储空间浪费严重的问题。设计并实现了TNS网络文件存储系统,该系统基于多服务器存储架构,分别由用户服务器、索引服务器、数据服务器、共享服务器、管理服务器和登录服务器组成,为多用户服务,采用一致性Hash实现负载均衡,支持在客户端进行文件粒度的重复数据删除。经过实际生产环境运行测试,具有良好的负载均衡能力和重复数据删除功能,可以有效节省存储空间,提高存储设备利用率。 相似文献
11.
为进一步提高重复数据删除系统的性能,提出基于数据分块的后缀数组SA和最长公共前缀LCP进行数据块优化的重复数据删除系统。系统首先将输入的数据流进行第一次分块,识别出相同的分块并给分块编号,创建分块编号序列的SA和LCP表,识别出最大重复队列和非重复数据块,进一步得出优化的超级块大小,然后以超级块为单元进行第二次数据分块并保存数据压缩结果。实验表明,相比于固定分块,该系统能实现给定输入流较好的压缩性和数据重构性。 相似文献
12.
13.
14.
在信息物理融合系统(Cyber-physical system,CPS)中,传统多源异构数据集成模型难以通过中间件实现异构系统间的概念层关系映射,存在系统难以扩展和传输性能低等问题。基于上述问题和挑战,提出了一个面向CPS的异构数据交互模型。设计数据对象模型实现物理系统和仿真系统高层概念映射;定义监测类和控制类元数据,针对不同的数据类型使用增量或全量字段更新以降低网络负载;基于Protobuf协议设计系统的通信模型,提高系统的扩展能力。基于该数据交互模型和高层体系结构(High level architecture, HLA)/数据分发服务(Data distribution service, DDS)系统中间件实现了一个CPS原型系统,验证了模型的可用性并对比了报文的压缩性能。 相似文献
15.
非结构化数据存储管理的实用化方法 总被引:2,自引:0,他引:2
针对目前广泛采用的非结构化数据文件与其属性数据分开存储的机制中的不安全性问题,本文从实用化角度给出一个“监控”策略和实现方法,通过软件实现可以约束非法的或意外的对非结构化数据源文件的破坏,并且保证了源文件与其在数据库中的索引的一致性。 相似文献
16.
17.
HLA中基于OMT文件创建数据库关系表的方法 总被引:3,自引:0,他引:3
针对高层体系结构(HLA)仿真结果数据日益增多,数据类型多变以及数据关系极其复杂的情况,介绍了利用HLA中对象模型模板(OMT)文件创建数据库关系表的通用方法。根据一般关系表的创建过程,分析了利用OMT文件中的数据定义,分别确定数据库关系表名称、字段名以及字段类型的原理。对OMT中类名过长及重复的问题,设计采用映射表的处理方法。对OMT文件中比较复杂的定义类型,包括多粒度或变粒度下简单数据类型、复杂数据类型以及嵌套复杂数据类型,详细分析了其对应的建表设计方案。最后根据实际仿真的需要,说明了关系表附加字段的选取过程。根据上述思路,设计开发了对应的工程软件,软件的成功应用证明了设计方案的有效性。 相似文献