首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
针对数据中心存在大量数据冗余的问题,特别是备份数据造成的存储容量浪费,提出一种基于Hadoop平台的分布式重复数据删除解决方案。该方案通过检测并消除特定数据集内的冗余数据,来显著降低数据存储容量,优化存储空间利用率。利用Hadoop大数据处理平台下的分布式文件系统(HDFS)和非关系型数据库HBase两种数据管理模式,设计并实现一种可扩展分布式重删存储系统。其中,MapReduce并行编程框架实现分布式并行重删处理,HDFS负责重删后的数据存储,在HBase数据库中构建索引表,实现高效数据块索引查询。最后,利用虚拟机镜像文件数据集对系统进行了测试,基于Hadoop平台的分布式重删系统能在保证高重删率的同时,具有高吞吐率和良好的可扩展性。  相似文献   

2.
由于EB(extreme binning)使用文件的最小块签名作为文件的特征, 它不适合处理主要包括小文件的数据负载, 会导致较差的重复数据删除率。为了改进EB, 提出了相似索引。它把相似哈希作为文件的特征, 是一种适用于以小文件为主的数据负载的重复数据删除的二级索引。实验结果表明, 相似索引的重复数据删除率比EB高24. 8%; 相似索引的内存使用量仅仅是EB的0. 265%。与EB相比, 相似索引需要更少的存储使用量和内存使用量。  相似文献   

3.
分布式存储系统中元数据系统的研究与设计   总被引:2,自引:0,他引:2  
在分布式存储系统中,元数据服务系统是一个潜在的访问瓶颈。文章提出了一种基于分布式哈希函数和共享存储器思想的元数据服务器系统,并且与LazyHybrid(LH)方法进行了对比研究,通过仿真测试表明其具有较高的元数据操作吞吐量和减少了元数据服务器之间元数据移动及易扩展等特性。  相似文献   

4.
采用元数据驱动方法,研究分布式数据资源管理,实现数据的统一组织,提供高效数据共享服务。在对数据进行分类分析基础上,基于元数据定义和管理,开展分布式数据管理的数据检索和缓存。突破分布式数据资源管理关键技术瓶颈,构建分布式资源全局目录,实现目录服务,进行高效传输的数据缓存管理,减少处理、采集、分发的延时。提供基于多副本的动态自适应数据调度方案,解决分布式数据资源管理的数据选择和动态变化问题。  相似文献   

5.
随着局域网内数据信息量的日益增多,如何对不断增加的海量数据作出筛选分类、分析与存储,成为企业数据管理、业务开展关注的重要问题,而依托于Hadoop分布式架构的云存储技术,构建起分布式文件管理的云服务系统,可保证数据存储与管理的合理数据块分布、功能可拓展性。基于此,通过围绕MapReduce集群、HDFS文件存储、HBase数据库,以及PC主机、VMWare虚拟机等软硬件,建立起云存储服务管理系统,可针对大文件、小文件存储的问题,设置文件索引、读写、合并、缓存等的功能服务模块,提供一种按需服务的应用方式,实现对特定数据的预读取、检索、合并与存储,提高Hadoop分布式集群系统的数据读取、索引与存储效率。  相似文献   

6.
随着大型天文望远镜的投入使用,观测台站正面临PB量级的海量数据存储、快速检索难题;同时由于在数据检索中起着关键作用的FITS文件头的可变性,导致难以使用传统的关系型数据库来建立可适应这种变化需求的非结构化数据模型。针对这个难题,提出了使用NoSQL对天文上广泛使用的FITS文件头中所包含的可变元数据信息进行存储和查询;讨论了关系型数据模型存储可变FITS文件头的不足;分析了NoSQL存储可变FITS头元数据信息的可行性;使用形式化的关系型代数对这种存储查询方式进行了一般化的讨论。通过具体查询实例验证了该方案在存储天文可变FITS文件头的有效性和可行性。  相似文献   

7.
随着互联网数据的爆发式增长,越来越多的分布式存储系统开始引入纠删码存储机制,以在提供数据可靠性的同时降低存储开销。但纠删码机制的引入改变了数据放置模式,从而影响分布式系统上层业务的数据访问和运行效率。在异构Hadoop集群环境中,一类典型的离线批处理作业——MapReduce应用在条带式纠删码存储模式下需要从多个节点访问数据,该“一对多”的数据访问模式由于节点性能差异造成应用执行效率下降。对此,该文提出了一种基于异构环境的数据放置和任务分配策略。通过对异构集群中各节点的硬件参数和历史负载进行分析,将同一纠删码条带的数据块尽可能分布在性能相近的节点上;在系统进行任务分配时,针对各节点当前负载和运算能力确定节点的任务并发度,以平衡各节点计算资源的占用情况,从而避免因数据访问或计算过程中的资源竞争产生极端缓慢任务以致降低整个MapReduce应用的运行效率。实验结果表明,相比当前Hadoop默认的随机数据放置和任务分配策略,该文提出的异构感知数据放置策略和动态任务分配策略能够在不同类型的MapReduce应用中有效削弱任务的长尾效应,使得作业整体运行时间节约10.5%~42%,验证了该方案的...  相似文献   

8.
针对当前备份系统存在的重复数据量大、网络传输数据多、数据安全性低等特点,提出一种新的文件级备份系统。该系统构建于Bacula开源备份系统基础之上,使用磁盘作为存储介质,基于内容地址存储,采用重复删除技术以节省存储空间。性能测试结果表明,该系统能有效缓解存储和网络传输的压力,同时提高数据的安全性。  相似文献   

9.
一种基于信息分散算法的分布式数据存储方案   总被引:4,自引:0,他引:4  
屈志毅  苏文洲  赵玲 《计算机应用》2006,26(5):1102-1105
针对分布式数据存储方案中,基于复制的方法和基于秘密共享的方法存在存储开销过大的问题,提出了分布式系统中一种基于IDA码的客户-服务器工作模式的数据存储方案。该方案在数据写入过程中通过构造编码后数据分块的Hash值级连,即所谓的数字指纹,可实现Byzantine环境数据的完整性保护。  相似文献   

10.

利用集合相似度自连接算法找出一个集合集中所有相似度大于给定阈值的集合对有着广泛的应用. 基于过滤-验证框架和并行分布式计算框架MapReduce的集合相似度连接是近年来的研究热点. 但现有算法在阈值低时产生较大规模的候选集,导致性能不理想. 针对这一问题,提出采用频繁模式树FP-tree及其派生结构FP-tree*将数据压缩在内存中计算集合相似度自连接以减小候选集规模. 首先设计并讨论基于现有FP-tree*的集合相似度连接计算及其优缺点,提出遍历效率更高的线性频繁模式树结构模型TELP-tree及基于它的算法TELP-SJ(TELP-tree self join),其包括分别面向构建树和遍历树的2阶段过滤算法,这些算法可以减小树规模和减少树遍历. 然后,设计基于MapReduce的并行分布式算法FastTELP-SJ. 最后,基于4组真实应用数据集进行3组性能比较实验. 实验结果表明FastTELP-SJ算法面向高维大规模集合相似度自连接计算时,包括执行时间、内存占用率、磁盘使用量和可扩展性的运行效率最好.

  相似文献   

11.
嵌入系统的硬盘文件操作   总被引:1,自引:0,他引:1  
罗悦怿  沈建华 《计算机工程》2004,30(2):176-177,192
分析了ATA硬盘接口和FAT32文件系统的基本原理,并根据嵌入系统的特点,提出了一种在没有OS的情况下利用通用微处理器控制硬盘进行文件操作,实现与Windows SFAT32文件系统兼容的有效解决方案。  相似文献   

12.
云存储加密数据去重删除所有权证明方法   总被引:5,自引:0,他引:5  
随着云计算服务的广泛应用,为了节省磁盘空间和带宽,出现了一种新技术:客户端去重复化.但近期发现了一种针对该技术的新型攻击:攻击者只需获得原始文件的一个摘要信息,即文件的散列值,即可从服务器端获得全部原始文件.为了解决上述安全问题,提出了一个密码学安全的、高效的证明方案来支持多客户端加密文件的去重复删除场景.通过抽样检测、动态系数和随机选择的原始文件检索值使方案达到安全与高效的目标;同时,还提出了一种巧妙的分布式捎带技术,将文件加密密钥的分发过程与所有权证明过程同步实施.最后,对所提方案进行了严格的安全性证明和深入的性能分析与仿真,结果表明,所提的方案不仅能达到可证明的安全级别,而且执行效率较高,尤其在减少客户端计算负载方面.  相似文献   

13.
This paper presents a new and efficient method for consistency control of replicated directory files. By investigating the special consistency requirements and the data structure of directory files, we design a parallel and nonblocking updating mechanism for the management of directory files. Compared with other consistency control mechanisms, our approach has the following advantages: (1) neither global locking nor globally synchronized clocks are used; (2) updates can be issued at any node without synchronizing with each other; (3) updates from remote nodes are executed as they arrive, without being blocked. The access consistency and correctness of the mechanism are also discussed.  相似文献   

14.
陈刚  李志勇 《自动化学报》2022,48(9):2254-2264
本文研究一类具有状态约束的多智能体系统优化控制问题, 提出了一种具有固定时间收敛特性的分布式优化控制算法. 该控制算法由局部投影模块、一致性模块和梯度模块构成, 其中局部投影模块确保智能体的状态在固定时间内收敛到局部约束集合, 基于时变增益的一致性模块实现所有智能体的状态在固定时间内收敛到一致值, 基于时变增益的梯度模块实现智能体的状态在固定时间内收敛到最优解. 利用凸优化理论和固定时间李雅普诺夫理论, 分析了算法的固定时间收敛特性. 算法收敛时间的上界值不依赖系统的初始条件, 因而可以根据任务需求来预先设计收敛时间. 最后通过数值仿真验证了理论结果的有效性.  相似文献   

15.
郭莉  刘伟  黄海 《微计算机信息》2008,24(9):198-200
在大型分布式存储系统中,高效元数据管理是保证整个系统运行的关键环节.目录子树和纯哈希方法是元数据管理采用的一般技术,但这两种技术在高速频繁的并行数据访问情况下会导致瓶颈.本文主要阐述一种元数据管理技术-懒散混合法(Lazy Hybrid,LH),这种技术对以上两种技术进行综合,取长补短,效果明显.  相似文献   

16.
Priority Random Linear Codes in Distributed Storage Systems   总被引:1,自引:0,他引:1  
Node churn and failures exist as fundamental characteristics in both peer-to-peer (P2P) and sensor networks. Peers in P2P networks are highly dynamic, whereas sensors are not dependable. As such, maintaining the persistence of periodically measured data in a scalable fashion has become a critical challenge in such systems, without the use of centralized servers. To better cope with node dynamics and failures, we propose priority random linear codes (RLCs), as well as their affiliated predistribution protocols, to maintain measurement data in different priorities, such that critical data have a higher opportunity to survive node failures than data of less importance. A salient feature of priority RLCs is the ability to partially recover more important subsets of the original data with higher priorities, when it is not feasible to recover all of them due to node dynamics. We present extensive analytical and experimental results to show the effectiveness of priority RLCs.  相似文献   

17.
An efficient and distributed scheme for file mapping or file lookup is critical in decentralizing metadata management within a group of metadata servers. This paper presents a novel technique called Hierarchical Bloom Filter Arrays (HBA) to map filenames to the metadata servers holding their metadata. Two levels of probabilistic arrays, namely, the Bloom filter arrays with different levels of accuracies, are used on each metadata server. One array, with lower accuracy and representing the distribution of the entire metadata, trades accuracy for significantly reduced memory overhead, whereas the other array, with higher accuracy, caches partial distribution information and exploits the temporal locality of file access patterns. Both arrays are replicated to all metadata servers to support fast local lookups. We evaluate HBA through extensive trace-driven simulations and implementation in Linux. Simulation results show our HBA design to be highly effective and efficient in improving the performance and scalability of file systems in clusters with 1,000 to 10,000 nodes (or superclusters) and with the amount of data in the petabyte scale or higher. Our implementation indicates that HBA can reduce the metadata operation time of a single-metadata-server architecture by a factor of up to 43.9 when the system is configured with 16 metadata servers.  相似文献   

18.
广域存储虚拟化所要解决的一个问题是如何实现对分布的文件进行方便高效的访问。本文在分析了几种常见的文件系统后,针对广域存储虚拟化系统的特征,设计了客户端的文件访问模式,并实现了一套应用于该系统的文件访问接口,使用户能够像使用本地系统一样使用广域存储虚拟化系统的存储资源。  相似文献   

19.
融合通信是当今计算机应用领域研究热点之一,人们对融合通信系统中应用服务的要求也越来越高.在数据存取方面,基于传统关系型数据库或者基于传统文件系统的存储方式已经越来越不能满足应用的需求.随着Hadoop技术以及相关子系统的发展,分布式存储的优势日渐明显.因此,本文在分析HBase、Hive各自特点及其体系结构的基础上,结合融合通信具体项目提出了基于HBase-Hive集成设计的存储引擎设计方法,以此来解决融合通信系统中数据安全性、数据获取效率等方面不满足的情况.通过对比实验表明,该设计方案提高系统数据查询获取效率,也为后续数据挖掘方面的开发做好准备.  相似文献   

20.
差异分布式存储系统应急资源优化调度仿真   总被引:1,自引:0,他引:1  
郑凯 《计算机仿真》2019,(7):415-418
针对当前存储系统应急资源调度方法存在的调度可靠性较低、实时性较差等问题,提出一种基于差异分布式存储系统的应急资源优化调度方法,利用属性信息划分应急资源样本集合,计算应急资源信息增益量和信息增益率,创建一个基于线性组合的综合变量,获取综合变量的方差,引入拉格朗日算法对应急资源做预处理操作,得出最佳的应急资源,并提取最佳应急资源的特征,完成对存储系统应急资源特征的提取。针对资源需求点所需的应急资源,利用不断靠近个体和群体历史最优两个位置,找出最优位置,将量子引入到粒子群优化算法中,更新粒子群,找到应急资源特征的最优分配方案,将方案对应的特征整合起来,找出与其相对的应急资源,实现对差异分布式存储系统应急资源的优化调度。仿真结果表明,所提方法的应急资源调度准确率高达99.99%,说明所提调度方法可以快速、可靠地调度存储系统中的应急资源。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号