共查询到20条相似文献,搜索用时 15 毫秒
1.
王海燕 《网络安全技术与应用》2015,(3):41-42
近几年来,我国互联网应用技术水平得到了提高,在这种发展背景下,当前互联网公司企业主要采用的技术手段为数据处理和分析能力,其中多样化和大规模是信息数据结构发展的主要特点,大量的存储数据成为了专业研究学者关注的重点课题。随着社会的逐步发展,现阶段分布式文件系统传统的性能内容已经不能够满足当前形势的需求,数据的扩展性以及一致性操作作为研究的基础,丰富关键数据内容,才能够保证失效的元数据服务器能够在第一时间得到恢复,并且建立相应的存储系统,本文对面向大数据分析的分布式文件系统关键技术内容进行了简要的研究。 相似文献
2.
为解决OpenStack云平台中单个节点的MySQL数据库在面临高并发访问和海量数据增长的情况下存在可靠性低、存储扩展性差、单点瓶颈等问题,设计并实现一种以Ceph分布式文件系统为存储后端的高可用MySQL数据库集群系统。通过集群技术消除基于独立服务器的单点瓶颈问题,保障业务的可靠性和高可用性,设计一套优化模型提高故障切换效率,底层的Ceph分布式文件系统为数据存储提供扩展性和安全性。实验结果表明,该MySQL高可用集群可以实现存储的扩展和节点失效情况下的故障切换,该优化模型可以有效降低故障切换时间。 相似文献
3.
分布式文件系统元数据服务器高可用性设计 总被引:1,自引:0,他引:1
设计并实现了面向对象的分布式文件系统元数据服务器高可用方案,用于提高存储系统的可用性.系统使用集中式元数据管理服务器,通过日志文件和检查点文件对元数据进行保存;针对系统特点,该方案采用active/hot-standby模式实现元数据服务器冗余备份.对系统状态监控、日志及检查点数据同步复制、元数据服务器节点失败接管、防止系统split-brain等关键技术问题进行了深入研究和提出相应解决方法,并对影响系统恢复时间的因素进行了细致分析.测试表明,高可用功能的实现对系统性能影响可以随存储文件的增大而减少,并可在失败发生后的较短时间内完成主从服务器的切换. 相似文献
4.
蓝鲸分布式文件系统的分布式分层资源管理模型 总被引:10,自引:0,他引:10
为了高效地管理海量分布式存储资源,蓝鲸分布式文件系统抛弃了传统的集中式资源管理方式。实现了分布式分层资源管理模型.该模型可以管理多个存储服务器,还能支持多个元数据服务器组成的集群进行分布式元数据处理,支持各种元数据和数据的负载平衡策略.同时,该模型中的带外数据传输功能克服了系统的性能瓶颈。提高了系统支持并发访问的能力.理论分析和实际测试结果都表明此模型能够满足多种不同的需求,提供很好的性能和良好的扩展性. 相似文献
5.
施晓峰 《计算机应用与软件》2019,36(5)
随着数字档案资源体系建设的不断加快,档案数据的种类日趋丰富,数量迅猛增长,呈现出大数据的特征。传统关系型数据库与集中式存储在档案大数据处理方面存在着适应性、可靠性和扩展性不足的问题。针对当前遇到的问题,通过分析传统档案数据存储模式的局限性,将分布式NoSQL数据库、分布式文件系统、分布式搜索引擎应用于档案大数据的管理。设计一套基于分布式NoSQL数据库的档案大数据存储与检索方案,并开发原型系统进行验证。 相似文献
6.
7.
DCFS2的元数据一致性策略 总被引:6,自引:0,他引:6
随着集群应用对机群文件系统的性能、容量和规模等需求的日益增长,采用多元数据服务器是机群文件系统发展的必然趋势.基于多元数据服务器的分布式元数据处理是文件系统研究的一个重要问题.机群文件系统DCFS2采用分布式日志技术和改进的两阶段提交协议解决了分布式元数据处理下元数据的一致性问题.性能测试结果表明,DCFS2所采用的基于分布式日志的元数据处理策略能够提供高的I/O性能,并能够保证在元数据服务器失效后文件系统快速恢复. 相似文献
8.
基于CDN和P2P的分布式网络存储系统 总被引:1,自引:0,他引:1
把用户的文件分片后均衡存储在不同的分布式存储节点上,并利用虚拟目录服务器和基于P2P—DHT的目录服务器把文件元数据与文件数据片高效地对应起来,以提供高效目录服务,分布式存储节点以P2P方式工作以快速完成用户对文件数据的请求任务。分布式网络存储系统DNSS充分利用了CDN和P2P的技术优势,有较高的可用性、可靠性和可扩展性。DNSS已经在中国科学技术大学应用。 相似文献
9.
分布式存储系统作为数据存储的载体,广泛应用于大数据领域.纠删码存储方式相对副本方式,既具有较高的空间利用效率,又能保证数据存储的可靠性,因此被越来多的应用于存储系统当中.在EB级大规模纠删码分布式存储系统中,元数据管理成本较大,位置信息等元数据查询效率影响了I/O时延和吞吐量.基于位置信息记录的有中心数据放置算法需要频... 相似文献
10.
可靠性问题是研究大规模集群存储系统的一个重要方面,元数据服务器是大规模集群存储的中心。本文针对基于镜像复制和共享存储的服务器实现方案,采用马尔可夫补偿模型研究元数据服务器的状态迁移概率,分析了元数据服务器集群的可靠性以及数据一致性对可靠性的影响,对实现大规模集群文件系统中的元数据服务器有重要的指导意义。 相似文献
11.
12.
交通流数据具有多来源、高速率、体量大等特征,传统数据存储方法和系统暴露出扩展性弱和存储实时性低等问题.针对上述问题,设计并实现了一套基于HBase交通流数据实时存储系统.该系统采用分布式存储架构,通过前端的预处理操作对数据进行规范化整理,利用多源缓冲区结构对不同类型的流数据进行队列划分,并结合一致性哈希算法、多线程技术、行键优化设计等策略将数据并行存储到HBase集群服务器中.实验结果表明:该系统与基于Oracle的实时存储系统相比,其存储性能提升了3~5倍;与原生的HBase方法相比,其存储性能提升了2~3倍,并且具有良好的扩展性能. 相似文献
13.
在集群文件系统中,元数据服务器是整个系统正常运转的核心,它的可靠性和性能是设计系统时需要着重考虑的问题之一.本文设计了一个具有高可靠性、高性能的两级元数据服务器系统,兼顾了集中式元数据管理和分布式元数据管理的优点.系统中高级元数据服务器负责维护文件系统全局的目录结构和管理整个文件系统的命名空间,双元数据服务器负责维护文件元数据的分布信息,并采用了马尔可夫回报模型对两级元数据服务器系统进行了可靠性分析.实验数据表明,具有两级元数据服务器的集群文件系统能提供高吞吐量. 相似文献
14.
15.
大数据分析的分布式MOLAP技术 总被引:1,自引:0,他引:1
大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,学界和业界广泛采用分布式文件系统和MapReduce编程模型来应对这一挑战.提出了大数据环境中一种基于Hadoop分布式文件系统(HDFS)和MapReduce编程模型的分布式MOLAP技术,称为DOLAP(distributed OLAP).DOLAP采用一种特殊的多维模型完成维和度量的映射;采用维编码和遍历算法实现维层次上的上卷下钻操作;采用数据分块和线性化算法将维和度量保存在分布式文件系统中;采用数据块选择算法优化OLAP的性能;采用MapReduce编程模型实现OLAP操作.描述了DOLAP在科学数据分析的应用案例,并与主流的非关系数据库系统进行性能对比.实验结果表明,尽管数据装载性能略显不足,但DOLAP的性能要优于基于HBase,Hive,HadoopDB,OLAP4Cloud等主流非关系数据库系统实现的OLAP性能. 相似文献
16.
随着计算能力的增强、应用课题规模和复杂度的增加,高性能计算机对并行文件系统性能要求越来越高.在海量小文件和大规模并发I/O操作的应用场景中,文件系统元数据的吞吐率成为限制其性能的关键因素.设计并实现了元数据代理(meta data delegation service,MDDS),通过降低元数据服务间的耦合度,保证元数据集群的高可用性;使用目录子树方式管理元数据代理空间,避免跨节点目录引入的分布式原子操作的复杂性和低效性.并针对高性能计算中I/O转发架构,提出基于元数据代理的两种作业调度策略——单作业独占单元数据代理调度和多作业共享多元数据代理调度——实现作业间和作业内的负载均衡.在116台存储服务器上对MDDS进行评估,实验结果表明,元数据代理提供了拟线性的元数据性能,在大规模的环境中较Lustre CMD方案有较好的扩展性;两种调度方式有效分散了作业元数据的负载,改善了高性能计算中的元数据瓶颈问题. 相似文献
17.
请求负载均衡,是分布式文件系统元数据管理需要面对的核心问题.以最大化元数据服务器集群吞吐量为目标,在已有元数据管理层之上设计实现了一种分布式缓存框架,专门管理热点元数据,均衡不断变化的负载.与已有的元数据负载均衡架构相比,这种两层的负载均衡架构灵活度更高,对负载的感知能力更强,并且避免了热点元数据重新分布、迁移引起的元数据命名空间结构被破坏的情况.经观察分析,元数据尺寸小、数量大,预取错误元数据带来的代价远远小于预取错误数据带来的代价.针对元数据的以上鲜明特点,提出一种元数据预取策略和基于预取机制的元数据缓存替换算法,加强了上述分布式缓存层的性能,这种两层的元数据负载均衡框架同时考虑了缓存一致性的问题.最后,在一个真实的分布式文件系统中验证了框架及方法的有效性. 相似文献
18.
随着大数据时代的到来,分布式存储技术应运而生。目前主流大数据技术Hadoop的HDFS分布式存储系统的元数据存储架构上一直存在可扩展性差和写延迟高等问题,其在官方2.0版本中针对可扩展性的解决方案(Fe-deration)仍不完美,仅解决了原有HDFS扩展性的问题,在元数据分配的问题上没有考虑NameNode的异构性能差异,也未解决NameNode集群动态负载均衡的问题。针对该情况,提出了一种动态负载均衡的分布NameNode算法,通过元数据多副本异构节点的动态适应性备份,使元数据在考虑节点性能及负载的情况下实现了动态分布,保证了元数据服务器集群的性能;同时结合缓存策略及自动恢复机制,提高了元数据的读写性及可用性。该算法在试验验证中达到了较为理想的效果。 相似文献
19.
基于列存储的MapReduce并行连接算法 总被引:1,自引:0,他引:1
《计算机工程》2014,(8)
针对传统关系型数据库在对大数据进行操作时,系统性能严重下降、计算效率提升有限以及可扩展性差等问题,引入MapReduce并行计算模型,提出一种大数据上基于列存储的MapReduce并行连接算法。设计面向大数据的分布式计算模型,包括MapReduce分布式环境下的列存储文件格式MCF,采用协同定位策略实现对分布式存储的优化。使用分片聚集和子连接启发式优化方法,实现大数据在MapReduce分布式环境下并行连接算法。实验结果证明,在大数据分析处理中,该算法在执行时间和负载能力上有着较好的优化性能,同时具有良好的可扩展性。 相似文献
20.
在云存储技术中,云存储系统的数据容错十分重要,直接关系到整个系统的可用性。当前多数分布式存储系统通过多副本来保证数据的可用性,然而,多副本存储方式也使得数据存储空间翻倍增加,为了降低存储空间,提高数据可用性,有些分布式存储系统开始采用纠错码技术来提高数据可用性和降低数据存储空间占用。通过对MooseFS分布式文件系统进行分析,提出了一种基于MooseFS的纠错码实现方法。通过数据存储效率测试,该方法能够保证常用的“热数据”按照多副本存储,不常用的“冷数据”按照纠错码方式存储,在保证可靠性的同时极大地降低了多副本方式空间占用量。 相似文献