首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
大数据环境下,磁盘数据库存在高并发I/O瓶颈,磁盘数据内存化是解决传统关系型磁盘数据库I/O瓶颈的有效方案。已有的内存化技术存在数据丢失、配置复杂等问题。基于内存数据库Redis,以典型开源关系型数据库MySQL为例,提出一种解决关系型数据库磁盘I/O瓶颈的轻量级内存化解决方案,实现MySQL的内存化存储。同时构建行式键值(RB-KVM)和分段列式键值交叉(PCB-KVCM)存储转换模型,实现异构数据库存储模型的转换和自动化数据迁移。通过分析对比,RB-KVM数据存取效率更高,而PCB-KVCM具有更高的内存利用率且在时间开销上优于RB-KVM。通过实际运行分析,该技术不仅提高了数据库在高并发场景下的吞吐能力,实现了海量热点数据的高效存取,在实际应用中也更加快捷,实施成本更低。  相似文献   

2.
数据去重能消除备份中的冗余数据,节省存储资源和网络带宽,因而成为当前数据存储领域的研究热点。针对常用的块级数据去重技术指纹查询开销高、系统吞吐率低等问题,提出一种批处理块级数据去重方法,通过内存缓冲区对指纹进行排序,实现磁盘索引的顺序查询。同时文件以一种双指针有向无环图的结构存储在系统中,以消除文件读时引起的随机磁盘I/O开销。实验结果表明,该方法有效克服了指纹查询的磁盘I/O瓶颈,提高了数据去重时的系统读写性能。  相似文献   

3.
通过对单驱动器磁盘系统和由多驱动器配置构成的磁盘阵列系统存储性能的对比研究发现,多驱动器配置的磁盘阵列系统是解决动态大容量影像数据实时存储的有效解决方案。在多驱动器配置中应尽量使用具有异步I/O功能的SCSI磁盘以降低I/O系统对CPU的占用率,同时尽可能采用多个SCSI通道以进一步提高I/O性能。  相似文献   

4.
王光忠  王翰虎  陈梅  马丹 《计算机工程与设计》2012,33(6):2291-2294,2342
由于基于闪存的混合存储系统充分利用了闪存的高速随机读和磁盘的快速顺序写的特性,近年来已经成为了数据库管理系统的二级存储层的高效存储模式,但其I/O访问开销是一个继续提高存储性能的瓶颈.为了降低混合存储系统的I/O访问开销,提出了一种自适应缓冲区管理算法DLSB.该算法根据数据页的逻辑代价和物理代价进行自适应的数据域选择;并在选择的数据域中,比较闪存队列和磁盘队列容量的实际值与理想值来确定数据页的置换,达到了提高I/O访问效率的目的.实验结果表明,该算法有效且可行,显著降低了混合存储系统的I/O访问开销.  相似文献   

5.
微软在Vista中采用了较多的存储管理新技术。使用SuperFetch、ReadyBoost、ReadyDrive三大存储管理新技术加速系统,提升系统性能。设计磁盘I/O优先级策略,区别对待磁盘I/O请求,提高系统响应能力,克服磁盘I/O瓶颈。利用BitLocker磁盘驱动器加密技术,配合改良的加密文件系统EFS,满足磁盘数据存储的安全性需求。Vista采用了许多类似的新技术,而且大多数技术在Windows7中得到了继承和发展,研究Vista具有十分重要的意义。  相似文献   

6.
一种集群计算系统中并行I/O文件存储分配策略   总被引:2,自引:0,他引:2  
现代计算机系统性能已经由受限于CPU转变为受限于I/O,近年来研究人员对高性能计算中的并行I/O问题进行了深入研究.本论文的主要工作是对集群计算中的并行I/O子系统进行研究,提出一种文件拆分与存储分配的新策略,即:已知知识的文件拆分与分配方法(KKFDA),该方法保证文件存储方式与访问方式的一致性,达到了提高文件访问时的本地命中率、缩短访盘响应时间的目的.算法设计与实验证明了方法的有效性.  相似文献   

7.
动态大容量影像数据实时存储的研究   总被引:2,自引:0,他引:2  
展之宏 《计算机工程》2003,29(7):160-162
通过对单驱动器磁盘系统和由多驱动器配置构成的磁盘阵列系统存储性能的对比研究发现,多驱动器配置的磁盘阵列系统是解决动态大容量影像数据实时存储的有效解决方案。在多驱动器配置中应尽量使用具有异步I/O功能的SCSI磁盘以降低I/O系统对CPU的占用率,同时尽可能采用多个SCSI通道以进一步提高I/O性能。  相似文献   

8.
基于SSD的机群文件系统元数据存储系统   总被引:1,自引:0,他引:1  
随着数据量的增加和元数据操作性能需求的提高,传统基于磁盘(HDD)存储架构的机群文件系统元数据存储系统由于HDD成为性能瓶颈而无法满足需求.将SSD应用到元数据存储中,设计实现了一个基于SSD+HDD的异构元数据存储系统Hybrid MDSL.针对SSD的I/O特性设计了基于追加写的元数据存储组织,并通过基于访问热度的数据迁移机制提高SSD空间利用率.测试结果表明,Hybrid MDSL明显提高了元数据I/O的性能.  相似文献   

9.
当今,磁盘I/O的发展速度永远赶不上遵照摩尔定律的CPU的发展速度,并且网络I/O资源稀缺,所以I/O常常成为数据处理的瓶颈。Hadoop能存储PB级数据,因此I/O问题愈加显著。压缩是I/O调优的一个重要方法,它能减少I/O的负载,加快磁盘和网络上的数据传输。首先通过分析Hadoop中各压缩算法的特点,得出一个压缩使用策略来帮助Hadoop的使用者确定如何使用压缩,并用实验得以验证补充。基于该策略,一些Hadoop应用在合理使用压缩后,效率能提高65%。  相似文献   

10.
随着集群搭建的高性能计算中心快速发展,海量数据处理中CPU和内存的速度已经有了质的飞跃,但是I/O部分的速度仍是制约整个系统性能的瓶颈。本论文目的在于通过深入研究流媒体系统的特性,来提取出一种高效、均衡的文件存储分配策略,增大服务并行度并且减小服务延时。首先对媒体文件进行特征评估,然后通过存储调度器进行磁盘间的均衡性平摊,进而应用更细粒度的分划。做到每个磁盘内部的存储分布优化。仿真结果验证了算法的有效性,这样的分配策略可使盘间、盘内在数据组织上更为合理,有效的提高了并行服务能力,提供了更加迅捷的用户体验。。  相似文献   

11.
Multidimensional aggregation is a dominant operation on data warehouses for on-line analytical processing(OLAP).Many efficinet algorithms to compute multidimensional aggregation on relational database based data warehouses have been developed.However,to our knowledge,there is nothing to date in the literature about aggregation algorithms on multidimensional data warehouses that store datasets in mulitidimensional arrays rather than in tables.This paper presents a set of multidimensional aggregation algorithms on very large and compressed multidimensional data warehouses.These algorithms operate directly on compressed datasets in multidimensional data warehouses without the need to first decompress them.They are applicable to a variety of data compression methods.The algorithms have different performance behavior as a function of dataset parameters,sizes of out puts and ain memory availability.The algorithms are described and analyzed with respect to the I/O and CPU costs,A decision procedure to select the most efficient algorithm ,given an aggregation request,is also proposed.The analytical and experimental results show that the algorithms are more efficient than the traditional aggregation algorithms.  相似文献   

12.
针对目前的TB级大规模数据场,可视化过程中数据场的I/O是比较花费时间的,并行分布可视化系统如何设计其数据结构管理机制,才能减少数据场的I/O处理、提高可视化处理速度,这是目前可视化系统必须解决的重要问题之一.详细阐述了JaVis系统采用的合约机制、元数据管理机制、子集管理机制以及数据组织格式等多种优化方式大大减少了数据I/O处理,提高了数据可视化的处理速度.  相似文献   

13.
大数据处理分析算法在优化研究过程中,速度常常受限于数据集的规模。在数据集体量不足时,算法的通信时间往往要高于真正的计算时间,无法验证真实的效果。故设计实现了一个大数据集生成器,为运行在超级计算机上的并行大数据处理分析算法提供基准测试数据集。首先,使用MPI并行编程技术构造了一个并行随机数生成器,在此基础上设计实现了可控制规模及复杂性的人工数据集,主要包括:分类和聚类数据集、回归数据集、流形学习数据集和因子分解数据集等。其次,设计了大数据集生成器的I/O系统,提供MPI-I/O并行读、写数据集的接口,并设置了数据集在不同进程间的分发、映射规则,通过点对点通信实现不同节点之间的数据交互。实验结果表明,并行大数据集生成器有效提高了数据生成效率和生成规模,为并行大数据处理分析算法提供了高质量、大体量的测试数据集。  相似文献   

14.
15.
Many large-scale applications have significant I/O requirements as well as computational and memory requirements. Unfortunately, the limited number of I/O nodes provided in a typical configuration of the modern message-passing distributed-memory architectures such as the Intel Paragon and the IBM SP-2 limits the I/O performance of these applications severely. In this paper, we examine some software optimization techniques and evaluate their effects in five different I/O-intensive codes from both small and large application domains. Our goals in this study are twofold. First, we want to understand the behavior of large-scale data-intensive applications and the impact of I/O subsystems on their performance and vice versa. Second, and more importantly, we strive to determine the solutions for improving the applications' performance by a mix of software techniques. Our results reveal that different applications can benefit from different optimizations. For example, we found that some applications benefit from file layout optimizations, whereas others take advantage of collective I/O. A combination of architectural and software solutions is normally needed to obtain good I/O performance. For example, we show that with a limited number of I/O resources, it is possible to obtain good performance by using appropriate software optimizations. We also show that beyond a certain level, imbalance in the architecture results in performance degradation even when using optimized software, thereby indicating the necessity of an increase in I/O resources  相似文献   

16.
Multidimensional array I/O in Panda 1.0   总被引:1,自引:0,他引:1  
Large multidimensional arrays are a common data type in high-performance scientific applications. Without special techniques for handling input and output, I/O can easily become a large fraction of execution time for applications using these arrays, especially on parallel platforms. Our research seeks to provide scientific programmers with simpler and more abstract interfaces for accessing persistent multidimensional arrays, and to produce advanced I/O libraries supporting more efficient layout alternatives for these arrays on disk and in main memory. We have created the Panda (Persistence AND Arrays) I/O library as a result of developing interfaces and libraries for applications in computational fluid dynamics in the areas of checkpoint, restart, and time-step output data. In the applications we have studied, we find that a simple, abstract interface can be used to insulate programmers from physical storage implementation details, while providing improved I/O performance at the same time.(A preliminary version of this paper was presented at Supercomputing '94.)  相似文献   

17.
Apriori算法是关联规则挖掘的经典算法。但在面对海量数据集时,由于过多的磁盘读写操作,使算法的效率大大降低。本文提出了一种将数据集根据处理计算机的内存进行分割,使分割后的每一部分数据集能直接放入内存中,用Apriori算法找到局部的关联规则,再在所有找到的局部关联的基础上,使用遗传算法寻找全局关联规则的方法。由于大大减少了磁盘操作,在处理海量数据集时本方法效率优于传统Apriori算法。  相似文献   

18.
宋杰  李甜甜  朱志良  鲍玉斌  于戈 《软件学报》2015,26(6):1438-1456
数据的指数级增长给数据管理和分析带来了严峻的挑战.连接查询是数据分析中一种常用运算,而MapReduce是一种用于大规模数据集并行处理的编程模型,研究基于MapReduce的连接查询代价评估和查询优化,有着学术意义和应用价值.MapReduce连接查询算法的性能主要取决于I/O代价(包括本地和网络I/O),而I/O代价与数据集以及连接运算的特征参数相关,通过对二元连接的I/O代价评估可以优化多元连接执行计划.基于此,首先提出了二元连接查询的I/O代价模型;随后,对现有二元连接算法进行形式化定义和简单扩展,归纳出6种基于MapReduce连接查询算法,并通过算法白盒分析定义它们的I/O代价函数;最后,提出一种多元连接最优执行计划的选择算法.通过实验表明I/O代价模型的正确性且能够准确地反映算法的性能优劣.  相似文献   

19.
在大规模集群系统的并行运算环境中,I/O效率一直是影响系统整体性能的关键因素,并行文件系统技术是目前解决I/O性能瓶颈的有效途径之一。介绍当前并行文件系统的发展现状以及并行文件系统的类型,阐述SNFS并行文件系统的架构以及负载均衡DLC(分布式LAN客户端)技术的实现原理,并给出大规模集群系统环境中SNFS文件系统负载均衡技术的实现方法,最后,通过实际应用分析说明该技术在提升I/O性能上的优势。  相似文献   

20.
Scalable high-performance I/O is crucial for application performance on large-scale systems. With the growing complexity of the system interconnects, it has become important to consider the impact of network contention on I/O performance because the I/O messages traverse several hops in the interconnect before reaching the I/O nodes or the file system. In this work, we present a route-aware and load-aware algorithm to modify existing bridge node assignment in the Blue Gene/Q (BG/Q) supercomputer. We reduce the network contention and reduce the write time by an average of 60% over the default independent I/O and by 20% over collective I/O on up to 8192 nodes on the Mira BG/Q system. Our algorithm routes 1.4× fewer messages through the bridge nodes which connect to the I/O nodes on the BG/Q. Our algorithm also reduces the average distance of a compute node from a bridge node, and thus lessens the network load, and decreases I/O time.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号