首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对分布式存储系统上使用非主键访问数据带来的性能问题,探讨在分布式存储系统上实现索引的相关关键技术。在充分分析分布式存储特征的基础上,提出了分布式索引设计和实现的关键点,并结合分布式存储系统的特点及相关的索引技术,讨论了索引的组织形式、索引的维护和数据一致性等问题;然后基于如上的分析,选择在分布式数据库系统OceanBase开源版本上,设计和实现分布式索引机制,并通过基准测试工具YCSB进行性能测试。实验结果表明,虽然辅助索引会对系统性能产生影响,但因为充分考虑了系统特征及存储特点,在不同数据规模下,该索引都能够将性能影响控制在5%以内。另外,使用冗余列的方式,能进一步将该索引的性能提升100%。  相似文献   

2.
随着科研工作的推进, 科研数据出现了海量的增长, PB级科研数据需要高效、稳定的存储系统. 传统的数据存储方案存在资源利用率差、集群扩展性能低以及用户界面操作不友好等问题, 严重限制了数据在科研场景下的有效利用. 依托中科院地球科学大数据专项, 本文设计并实现高效的存储系统i-Harbor. 该系统以对象存储系统为核心架构, 以开源的Ceph分布式存储系统和MongoDB数据库作为对象数据和元数据的存储载体, 设计通用的基于HTTP和FTP协议的数据接口, 同时利用多副本和纠删码技术消除单点故障, 配合Zabbix集群监控系统, 实时定位平台参数以及故障, 提高平台容灾性和安全性. 此外, 基于底层分布式结构的特点, 集群可以随意添加存储节点, 提高了平台的扩展性.  相似文献   

3.
随着气象观测、预报和服务业务的快速发展,气象资料的种类和数据量日益增多,数据写入频率越来越高,对气象数据存储处理系统提出极大挑战,进一步提升CIMISS数据管理和服务能力的需求变得日益迫切。为解决存储处理系统动态扩展能力不足、吞吐与并行计算效率低下的问题,采用一系列Share Nothing分布式集群设计,包括Share Nothing分布式架构、分布式数据库、NAS存储技术等搭建可动态扩展的Share Nothing分布式气象数据存储处理系统。实践证明,该方案设计能够满足当今气象结构化数据和非结构化数据对存储能力、并发响应能力的需求,通过动态扩展可便捷适应未来气象业务发展对数据存储和应用等服务能力不断增加的需求,具备气象现代发展进程中气象数据存储处理系统高吞吐量、可动态横向扩展、高稳定性、高可靠性的特性。  相似文献   

4.
海量气象数据实时解析与存储系统的设计与实现   总被引:5,自引:0,他引:5  
气象数据是一种典型的非结构化数据,在实际应用中其日增量达数十TB,基于关系数据库和传统文件系统的解析、存储与访问模式已成为制约天气预报系统信息化发展的瓶颈之一。为满足全国天气预报平台MICAPS用户对实时数据的及时、快速查询,介绍了能够7*24小时稳定工作、支撑数十TB/天的数据实时解析系统。根据气象数据的多维模型和用户行为,采用非关系型分布式Key-Value数据库,设计实现了高性能海量数据存储系统。实践证明,数据实时解析系统和基于分布式非关系型KeyValue数据库的存储系统能有效满足海量实时气象数据存储、查询和应用需求。该系统已成为中国天气预报业务流程中的核心系统,体现了优异的功能和性能。  相似文献   

5.
谢华成  陈向东 《计算机应用》2012,32(7):1924-1928
非结构化数据呈爆炸态势增长,现有存储技术在I/O吞吐能力、可扩展性及易管理性等方面亟待改进。存储系统以云存储和可靠性理论为基础,建立了非结构化数据的分布式存储模型,并设计了可靠度函数。采用分布式关系数据库管理系统(RDBMS)作为存储底层,将非结构化数据直接存储于数据表中,实现了非结构化数据和元数据的分离式存储和统一管理,进而提升了存储系统性能。相对于集中式存储,新系统具有较高的可用性。仿真结果显示,存储系统可靠度高且易于扩展。该分布式存储系统可应用于动态开放计算环境,提供效能较高的云存储服务。  相似文献   

6.
周渭博  钟勇  李振东 《计算机应用》2017,37(8):2209-2213
在分布式存储系统中,一般都是以磁盘空间利用率(DU)来判断各存储节点的负载均衡程度,当所有节点的磁盘空间利用率相等时,是整个分布式存储系统的存储负载均衡点。但是在实际的应用场景中,磁盘I/O速率比较低的存储节点和可靠性比较低的存储节点往往成为影响整个存储系统数据读写性能的瓶颈,因此在异构分布式存储系统中,特别是各存储节点磁盘I/O速率和可靠性差异较大的分布式存储系统中,如果仅仅以磁盘空间利用率作为存储负载均衡的判定条件,则其数据的读写效率必然受到限制。从读写效率的角度提出一种度量分布式存储系统中存储负载均衡的新思路。根据负载均衡理论和熵理论给出存储熵(SE)的定义,并提出一种基于存储熵的负载均衡算法,该算法通过系统负载判定、单节点负载判定和负载迁移实现了对分布式存储系统存储负载的量化调整,并通过实验与基于磁盘空间利用率的负载均衡算法进行了对比分析,验证了该算法对分布式存储系统中存储负载具有良好的均衡性,有效地控制了系统负载失衡的问题,提高了分布式存储系统的整体读写效率。  相似文献   

7.
分布式存储系统为保证数据可靠性,需要对数据进行冗余存储来应对由于节点失效所带来的数据不可靠性.基于矩阵积构造的精确修复最小带宽再生码除了能够显著降低系统的存储冗余,而且编码的构造参数之间没有约束限制,还能够显著降低修复带宽的开销,具有广阔的应用前景.然而,基于此编码方案所设计的分布式存储系统的性能开销并没有得到充分的研究和分析.针对该编码在分布式存储系统中数据上传、修复、下载3个阶段,分别比较CPU使用率、文件大小、缓冲区大小以及有限域大小对上述3个阶段中运算速度的影响,发现通过对相关参数进行合理配置,可以使得基于相应编码方案的分布式存储系统能够获得良好的运行性能.  相似文献   

8.
针对数据中心存在大量数据冗余的问题,特别是备份数据造成的存储容量浪费,提出一种基于Hadoop平台的分布式重复数据删除解决方案。该方案通过检测并消除特定数据集内的冗余数据,来显著降低数据存储容量,优化存储空间利用率。利用Hadoop大数据处理平台下的分布式文件系统(HDFS)和非关系型数据库HBase两种数据管理模式,设计并实现一种可扩展分布式重删存储系统。其中,MapReduce并行编程框架实现分布式并行重删处理,HDFS负责重删后的数据存储,在HBase数据库中构建索引表,实现高效数据块索引查询。最后,利用虚拟机镜像文件数据集对系统进行了测试,基于Hadoop平台的分布式重删系统能在保证高重删率的同时,具有高吞吐率和良好的可扩展性。  相似文献   

9.
大规模分布式数据存储是云计算和大数据时代的重要支撑技术.在分布式存储系统中,数据副本如何放置是一个基本问题.然而,现有可实用的算法或忽略应用具体的访问特征而牺牲效率,或拘泥于单一应用而不具备泛化能力.通过建立副本存储策略的统一描述模型以及提取应用的关键访问特征参数,定义出副本存储策略自动生成算法的输出和输入;通过机器学习的方法获得访问特征参数和最优副本存储策略参数之间的一般性关系,从而形成自动生成机制的核心算法.在提高存储系统访问性能及节约能耗等成本的同时,有效降低副本存储策略设计过程中的人工干预程度.  相似文献   

10.
一种面向连续数据保护的分布式存储模型研究   总被引:1,自引:0,他引:1  
一个典型的连续数据保护(CDP,Continuous Data Protection)系统必须具有一个高效的存储系统来支撑.本文提出了一种分布式的存储模型,在此基础之上设计了一个面向CDP应用的分布式存储系统.同传统CDP系统相比,本文提出了分布式存储应用于CDP应用,将文件级和块级的数据存储都归纳到一个存储系统中;通过引入了元数据和数据分离的思想,并且把数据分级存储.根据原型系统的理论论证以及测试,结果表明,论文所提存储模型很好的解决了CDP服务器低效率,高负荷的问题,并且具有低成本的优势.  相似文献   

11.
0引言气象业务数据在并行处理中对处理器、存储技术提出更高要求,而传统的分布式数据存储与网络服务,已经难以满足气象业务数据的快速处理。云计算是基于现代高速计算及海量存储基础上,通过云数据库方式来实现并行处理。由于气象数据本身的特殊性,在进行云计算过程中,容易受到泄露风险。如云端存储系统中用户数据在不同访问权限、不同用户的认证中一旦被仿冒,就会带来敏感数据的泄露。利用分发  相似文献   

12.
通过分析虚拟桌面系统对存储系统的要求,设计并实现了面向多虚拟机的分布式存储系统——虚拟机存储系统(virtual machine storage,VMStore)。分布式技术具有灵活性和可扩展性,因此采用分布式技术提高多虚拟机存储系统的吞吐率。在元数据管理中采用直接块索引结构以获得更好的快照性能,并采用去冗余技术减少多虚拟机镜像之间的冗余数据。实验结果显示存储系统具有较好的吞吐能力,且快照和去冗余的开销对整个系统的影响较小。  相似文献   

13.
作为一种先进计算方式的云计算,不断在信息服务与科研领域升温,并且影响了存储和运算大规模数据。本文主要分析了云存储技术,非结构化数据存储方式,面向云存储的非结构化数据存储系统架构,面向云存储的非结构化数据存储结构设计和实现。  相似文献   

14.
随着分布式存储技术的发展,网络数据存储的安全性问题成为计算机领域研究的热点.在分析了基于X Code和RS Code技术的分布式存储系统的基础上,为进一步增强数据系统容错能力提出了一种改进的二维分布式存储系统.该系统将数据服务器中的数据块组织成具有行列坐标的两维实体,在列上将RS Code和X Code两种编码方法综合运用产生校验信息,在行上实行基于异或运算的校验.实验表明经改进的系统较采用RS Code技术的系统减少了数据恢复时间,较采用X Code技术的系统增加了容错数量,从而在整体上提高了系统容错效率.  相似文献   

15.
郭栋王伟  曾国荪 《计算机应用》2013,33(12):3432-3436
随着云计算和大数据技术的发展,传统的单一存储介质的数据存储方式已经不能满足大数据处理的需求,在这样的背景下,分布式数据存储得到了广泛的应用。然而,目前存在的几种分布式存储方式并不能够完美地满足分布系统的需求。为了更有效地实现数据的分布式存储和冗余备份,采用一种新的基于一致性树分布(CTD)的分布式存储方法,并提出基于该方法的备份策略,实现数据索引与存储位置的映射。该方案具有负载平衡、无单点故障问题、扩展性高且易于实现的优点。同时提出了基于一致性二叉树分布(CBTD)的应用方案。通过对应用系统实例的分析,验证该方法能够很好地满足分布式系统的数据平衡、负载均衡和扩展性需求。  相似文献   

16.
本文介绍了什么是分布式存储技术,通过对分布式存储技术特点的分析认为,分布式存储系统的低成本、可扩展性和易用性,在分布式计算技术和存储共享数据方面已经有了很好的应用,是互联网发展的又一个热点,分布式存储技术必将带来互联网新的发展前景.  相似文献   

17.
在分布式存储中,海量数据被存储到同一个数据中心的不同节点或不同数据中心的节点上,数据的位置和组织方式对用户是透明的,由于面临的数据规模和用户规模更加庞大,在容错安全性上面临着严峻的挑战。本文提出一种基于纠删码的分布式存储系统模型,利用纠删码高效的编码效率和容错能力,为数据安全性保障提供了一个可靠的解决方案。  相似文献   

18.
针对电信公司业务数据的存储和管理,提出架构存储区域网络解决数据存储问题。从分析网络存储系统结构——DAS,NAS,SAN入手,研究SAN在电信业务支撑系统中的应用与实现。  相似文献   

19.
基于HBase的大规模无线传感网络数据存储系统   总被引:1,自引:0,他引:1  
陈庆奎  周利珍 《计算机应用》2012,32(7):1920-1923
无线传感网络(WSN)存在分布的跨区域性,随着无线传感网络的扩张,传感器数目增多,将产生大规模的传感数据。针对存储大规模无线传感网络数据的问题,提出了一个两层分布式存储架构,使用分布式数据库HBase存储跨区域的无线传感网络数据和全局数据存储管理目录,实现一个近实时的存储系统。实验结果证明,该系统有良好的扩展性、存储和查询效率。  相似文献   

20.
李朋远  张志勇 《计算机科学》2018,45(Z6):601-605
随着我国航天事业的迅速发展,利用海量数据存储平台存储产生的海量科研数据变得越来越重要。文中提出了一种基于SWIFT分布式存储系统的云存储方案,并构建了存储平台的基础架构。存储平台中SWIFT系统的设计主要包含数据存储的哈希过程、Ring优化、Partition优化和Replica副本决策4部分,通过数据模拟的方式验证了关键设计的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号