首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
随着计算机技术的发展,集群系统的应用越来越广泛。在各种高性能计算机解决方案中,基于linux的高性能科学计算集群是比较流行的低成本方案。本文介绍了Linux高性能集群及集群文件系统的相关技术,并通过实例展现搭建集群文件系统的过程。  相似文献   

2.
科学计算数据集由数据和元数据组成.一般条件下,数据的尺寸较大,元数据尺寸较小.传统的高性能计算机并行文件系统可以高效率地读写大块连续数据,但是无法高效率地读写大量较小块的元数据.一旦大块数据和小块元数据两类读写特征混杂在一起,元数据将较严重地干扰并行I/O,造成性能的下降.为此,文中提出数据与元数据分治的双路并行I/O方法.该方法在高层I/O库中建立内存文件系统与并行文件系统两级存储,在存储资源之间并行迁移科学计算元数据.一方面降低较频繁读写元数据的I/O延迟,另一方面改变科学计算数据的存储特征与存储模式,从而提高科学计算应用、尤其是数据分析与可视化等读入密集型应用的I/O效率.测试表明,双路并行I/o方法可提高写性能8%~13%,提高读性能89%到1.01倍.  相似文献   

3.
正2011年10月,富士通推出了一种新型高性能计算机文件系统——Fujitsu Exabyte File System(FEFS),FEFS是x86的高性能计算机集群文件系统,能够通过高速分布式计算机完成节点上的数据读写,在高速和大规模数据处理方面有良好的性能。富士通表示,使用这一技术,从计算机节点到文件系统的传输速度最高可达每秒1TB。  相似文献   

4.
集群计算系统中并行文件系统的研究是当前计算机与网络技术中的一个热点问题,而并行I/O是缓解系统数据输入输出瓶颈的一个技术途径.论文对当前集群系统中的并行文件系统与并行I/O做了研究,阐述了研究发展的现状、关键问题等,指出了在集群计算系统中的文件组织、分布以及其在磁盘上的实现、数据的访问特性、高性能网络文件系统、系统的负载平衡与缓冲和预取策略.  相似文献   

5.
郑法  郑东 《计算机工程》2004,30(Z1):101-102
从解决高性能计算机I/O瓶颈面临的问题着手,详细分析了并行文件系统(PVFS)的结构、存取机制、管理机制和工作机制,为高 性能集群文件系统的建立提供了一种行之有效的解决方法。  相似文献   

6.
并行文件系统研究综述   总被引:3,自引:0,他引:3  
对于运行在机群上的一类I/O密集型应用,I/O成为整个系统的瓶颈,并行文件系统是解决I/O瓶颈问题的重要方法.但如何实现高性价比且高可用的并行文件系统,目前还没有一个成形完整的解决方案.本文阐述了并行文件系统的功能和模型,对现存的并行文件系统从三个不同的角度进行了分类,详细分析了设计并行文件系统的5个关键技术,分析评价了具有代表性的并行文件系统优缺点,最后讨论了进一步的研究工作.  相似文献   

7.
并行文件系统与并行I/O研究   总被引:1,自引:0,他引:1  
集群计算系统中并行文件系统的研究是当前计算机与网络技术中的一个热点问题,而并行I/O是缓解系统数据输入输出瓶颈的一个技术途径。论文对当前集群系统中的并行文件系统与并行I/O做了研究,阐述了研究发展的现状、关键问题等,指出了在集群计算系统中的文件组织、分布以及其在磁盘上的实现、数据的访问特性、高性能网络文件系统、系统的负载平衡与缓冲和预取策略。  相似文献   

8.
姜游 《计算机系统应用》2008,17(12):102-105
在集群系统中,I/O节点担负着数据存储和分发的角色。针对I/O密集型应用,I/O节点网络带宽常常无法满足需要而成为整个系统的瓶颈。分组技术可以方便、高效地增加I/O节点带宽,并提供冗余保护。本文简要介绍了分组技术原理、模式,并通过在集群I/O节点上安装infel公司提供的iANS具体实现。最后给出了性能评价。此技术在实际应用中已取得良好效果。  相似文献   

9.
虚拟机使用集群文件系统是云计算主要架构模式之一,主要分为共享式集群文件系统和分布式集群文件系统两大类.其中,后者是近年来学术界关注的热点,在产业界也逐渐得到深入应用.采用测试法,选取fio作为测试工具,以IOPS作为度量指标,对比两类集群文件系统的性能优劣.实验结果显示,在单物理机节点配置下进行单台虚拟机IOPS写性能测试,共享式文件系统要好于分布式集群文件系统大约40%,但读性能要差1.5倍;对于多台虚拟机并发测试,则当支持虚拟机运行的共享式/分布式集群文件系统规模小于16台时,前者和后者性能基本一致.否则,后者会明显好于前者.  相似文献   

10.
马常霞 《微机发展》2006,16(4):153-154
随着信息技术的发展,科学计算和并行技术所要处理的数据越来越多,现有的分布式文件系统已经越来越难以满足海量数据存储和资源在地理上的广泛协同和共享。校园网格文件系统是解决建立校园网格系统的重要技术之一,它将校园网格系统中的资源有机地统一起来,其应用将促进网格研究的进一步发展。  相似文献   

11.
Data-intensive applications that are inherently I/O bound have become a major workload on traditional high-performance computing (HPC) clusters. Simply employing data-intensive computing storage such as HDFS or using parallel file systems available on HPC clusters to serve such applications incurs performance and scalability issues. In this paper, we present a novel two-level storage system that integrates an upper-level in-memory file system with a lower-level parallel file system. The former renders memory-speed high I/O performance and the latter renders consistent storage with large capacity. We build a two-level storage system prototype with Tachyon and OrangeFS, and analyze the resulting I/O throughput for typical MapReduce operations. Theoretical modeling and experiments show that the proposed two-level storage delivers higher aggregate I/O throughput than HDFS and OrangeFS and achieves scalable performance for both read and write. We expect this two-level storage approach to provide insights on system design for big data analytics on HPC clusters.  相似文献   

12.
MapReduce框架下的Skyline计算   总被引:2,自引:0,他引:2  
由于Skyline查询广泛应用于多目标决策、数据可视化等领域,近年来成为数据库领域的一个研究热点。针对云计算环境,在MapReduce框架下设计并实现了Skyline算法。MapReduce是一个运行在大型集群上处理海量数据的并行计算框架,其主要思想是任务的分解与结果的汇总。基于不同的数据划分思想,实施了三种Skyline并行算法,分别是基于MapReduce的块嵌套循环算法(MapReduce based block-nested-loops,MR-BNL)、基于MapReduce的排序过滤算法(MapReduce based sort-filter-skyline,MR-SFS)以及基于MapReduce的位图算法(MapReduce based bitmap,MR-Bitmap),并针对这三种算法进行了系统的实验比较,得出了不同数据分布、维数、缓存等因素对算法性能的影响结果。  相似文献   

13.
荀亚玲  张继福  秦啸 《软件学报》2015,26(8):2056-2073
MapReduce是一种适用于大规模数据密集型应用的有效编程模型,具有编程简单、易于扩展、容错性好等特点,已在并行和分布式计算领域得到了广泛且成功的应用.由于MapReduce将计算扩展到大规模的机器集群上,处理数据的合理放置成为影响MapReduce集群系统性能(包括能耗、资源利用率、通信和I/O代价、响应时间、系统的可靠性和吞吐率等)的关键因素之一.首先,对MapReduce编程模型的典型实现——Hadoop缺省的数据放置策略进行分析,并进一步讨论了MapReduce框架下,设计数据放置策略时需考虑的关键问题和衡量数据放置策略的标准;其次,对目前MapReduce集群环境下的数据放置策略优化方法的研究与进展进行了综述和分析;最后,分析和归纳了MapReduce集群环境下数据放置策略的下一步研究工作.  相似文献   

14.
云计算MapReduce并行编程模型广泛应用于数据密集型应用领域,基于该模型的开源平台Hadoop在大数据领域获得了成功应用。然而,对于计算密集型任务,特别是迭代运算,频繁启动Map和Reduce过程将导致负载过大,影响计算效率。弹性分布式数据集(RDD)是一种基于内存的集群计算模型,有效地支持迭代运算,能够克服负载过大的问题。因此提出基于RDD模型的并行差分进化算法SparkDE。SparkDE首先将整个种群划分为若干个独立岛,然后将一个岛对应RDD中的一个分区,每个岛在RDD的一个分区中独立进化指定代数后,利用迁移算子在岛之间交换信息。利用标准测试问题对SparkDE、基于MapReduce模型的MRDE和基本DE进行对比实验研究。实验结果表明SparkDE求解精度高,计算速度快,加速效果明显,可以作为云计算平台的下一代优化器。  相似文献   

15.
With the advent of new computing paradigms, parallel file systems serve not only traditional scientific computing applications but also non-scientific computing applications, such as financial computing, business, and public administration. Parallel file systems provide storage services for multiple applications. As a result, various requirements need to be met. However, parallel file systems usually provide a unified storage solution, which cannot meet specific application needs. In this paper, an extended file handle scheme is proposed to deal with this problem. The original file handle is extended to record I/O optimization information, which allows file systems to specify optimizations for a file or directory based on workload characteristics. Therefore, fine-grained management of I/O optimizations can be achieved. On the basis of the extended file handle scheme, data prefetching and small file optimization mechanisms are proposed for parallel file systems. The experimental results show that the proposed approach improves the aggregate throughput of the overall system by up to 189.75%.  相似文献   

16.
With the recent emergence of cloud computing based services on the Internet, MapReduce and distributed file systems like HDFS have emerged as the paradigm of choice for developing large scale data intensive applications. Given the scale at which these applications are deployed, minimizing power consumption of these clusters can significantly cut down operational costs and reduce their carbon footprint—thereby increasing the utility from a provider’s point of view. This paper addresses energy conservation for clusters of nodes that run MapReduce jobs. The algorithm dynamically reconfigures the cluster based on the current workload and turns cluster nodes on or off when the average cluster utilization rises above or falls below administrator specified thresholds, respectively. We evaluate our algorithm using the GridSim toolkit and our results show that the proposed algorithm achieves an energy reduction of 33% under average workloads and up to 54% under low workloads.  相似文献   

17.
如何处理海量语音数据是语音识别应用的一个重要问题,采用并行化计算取代传统的单机处理,如果并行调度控制不当,最终合并的结果在合并顺序上就会出现错误,并且数据切分不合理还会造成语义连贯性的丢失导致准确率的降低,文件片段在网络上传输的时间开销也需要考虑,针对上述问题,提出了一种基于Hadoop的语音识别系统,借助其分布式文件系统HDFS与MapReduce并行算法解决文件片段传输与并行调度控制的问题,同时引入静音检测算法合理地处理文件切分,通过实验验证了该系统的有效性。  相似文献   

18.
Large-scale data-intensive cloud computing with the MapReduce framework is becoming pervasive for the core business of many academic, government, and industrial organizations. Hadoop, a state-of-the-art open source project, is by far the most successful realization of MapReduce framework. While MapReduce is easy- to-use, efficient and reliable for data-intensive computations, the excessive configuration parameters in Hadoop impose unexpected challenges on running various workloads with a Hadoop cluster effectively. Consequently, developers who have less experience with the Hadoop configuration system may devote a significant effort to write an application with poor performance, either because they have no idea how these configurations would influence the performance, or because they are not even aware that these configurations exist. There is a pressing need for comprehensive analysis and performance modeling to ease MapReduce application development and guide performance optimization under different Hadoop configurations. In this paper, we propose a statistical analysis approach to identify the relationships among workload characteristics, Hadoop configurations and workload performance. We apply principal component analysis and cluster analysis to 45 different metrics, which derive relationships between workload characteristics and corresponding performance under different Hadoop configurations. Regression models are also constructed that attempt to predict the performance of various workloads under different Hadoop configurations. Several non-intuitive relationships between workload characteristics and performance are revealed through our analysis and the experimental results demonstrate that our regression models accurately predict the performance of MapReduce workloads under different Hadoop configurations.  相似文献   

19.
MapReduce环境下的并行Dwarf立方构建   总被引:1,自引:0,他引:1  
针对数据密集型应用,提出了一种基于MapReduce框架的并行Dwarf数据立方构建算法.算法将传统Dwarf立方等价分割为多个独立的子Dwarf立方,采用MapReduce架构,实现了Dwarf立方的并行构建、查询和更新.实验证明,并行Dwarf算法一方面结合了MapReduce框架的并行性和高可扩展性,另一方面结合...  相似文献   

20.
基于SSD的机群文件系统元数据存储系统   总被引:1,自引:0,他引:1  
随着数据量的增加和元数据操作性能需求的提高,传统基于磁盘(HDD)存储架构的机群文件系统元数据存储系统由于HDD成为性能瓶颈而无法满足需求.将SSD应用到元数据存储中,设计实现了一个基于SSD+HDD的异构元数据存储系统Hybrid MDSL.针对SSD的I/O特性设计了基于追加写的元数据存储组织,并通过基于访问热度的数据迁移机制提高SSD空间利用率.测试结果表明,Hybrid MDSL明显提高了元数据I/O的性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号