首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
随着大数据的发展,Hadoop系统成为了大数据处理中的重要工具之一。在实际应用中,Hadoop的I/O操作制约系统性能的提升。通常Hadoop系统通过软件压缩数据来减少I/O操作,但是软件压缩速度较慢,因此使用硬件压缩加速器来替换软件压缩。Hadoop运行在Java虚拟机上,无法直接调用底层I/O硬件压缩加速器。通过实现Hadoop压缩器/解压缩器类和设计C++动态链接库来解决从Hadoop系统中获得压缩数据和将数据流向I/O硬件压缩加速器两个关键技术,从而将I/O硬件压缩加速器集成到Hadoop系统框架。实验结果表明,I/O硬件压缩加速器的每赫兹压缩速度为15.9Byte/s/Hz,集成I/O硬件压缩加速器提升Hadoop系统性能2倍。  相似文献   

2.
传统集群计算系统无法充分利用本地磁盘的存储资源和I/O,大量网络I/O成为系统瓶颈,导致资源利用率降低,并造成高昂的存储和网络成本.使用Hadoop处理分析作业可有效利用本地磁盘存储和I/O资源,而集群资源统一管理工具Mesos则使用轻量化的设计和高效的通信机制,能在不同计算集群之间动态共享集群资源.为此,分析高能物理数据处理的特点,利用Mesos构建异构集群间资源共享的高能物理实验数据处理系统,实现Torque/Maui和Hadoop集群的集成.测试结果表明,该系统能够在集群间动态分配集群资源,并利用本地存储和磁盘I/O显著降低网络I/O,提高集群资源利用率.  相似文献   

3.
并行文件系统的设计   总被引:4,自引:2,他引:2  
李群  谢立 《计算机科学》1996,23(4):35-39
随着处理机速度和网络传输速度越来越快,外部1/0设备的速度却相对落后了三、四个数量级,已经成为影响整个系统速度的瓶颈.另一方面,诸如多媒体、图像处理这些应用所需要的数据传输率越来越大,因而有必要支持高速的I/O子系统以弥补磁盘与处理机之间速度的差异,支持I/0密集的应用之高数据传输率。为了提高1/0速率,提供大的I/O带宽,在硬件结构上可以并行使用磁盘来解决。对于一个MIMD系统中使用多磁盘输入/输出子系统,  相似文献   

4.
利用开源Hadoop平台,重点研究了MapReduce在轻量数据集、网络I/O密集型程序的适用性。采用MapReduce编程模型改造了一个典型的轻量数据集、网络I/O密集型应用——FTP站点扫描程序;搭建了一个小规模Hadoop集群环境,调整了Hadoop平台的默认配置,并用真实数据对改造前后的程序进行了性能测试。实验证明,MapReduce编程模型具有良好的分布式特性,可适用于轻量数据集、网络I/O密集型程序。  相似文献   

5.
微软在Vista中采用了较多的存储管理新技术。使用SuperFetch、ReadyBoost、ReadyDrive三大存储管理新技术加速系统,提升系统性能。设计磁盘I/O优先级策略,区别对待磁盘I/O请求,提高系统响应能力,克服磁盘I/O瓶颈。利用BitLocker磁盘驱动器加密技术,配合改良的加密文件系统EFS,满足磁盘数据存储的安全性需求。Vista采用了许多类似的新技术,而且大多数技术在Windows7中得到了继承和发展,研究Vista具有十分重要的意义。  相似文献   

6.
Oracle中磁盘竞争是影响I/O速度、降低系统性能的常见问题,可以通过分离顺序I/O、利用分片技术分散随机I/O;分别存储数据和索引、消除磁盘上的非Oracle的I/O操作、减少数据迁移和数据链接、减少碎片等方法有效地减少磁盘竞争.提高系统性能.  相似文献   

7.
并行文件系统与并行I/O研究   总被引:1,自引:0,他引:1  
集群计算系统中并行文件系统的研究是当前计算机与网络技术中的一个热点问题,而并行I/O是缓解系统数据输入输出瓶颈的一个技术途径。论文对当前集群系统中的并行文件系统与并行I/O做了研究,阐述了研究发展的现状、关键问题等,指出了在集群计算系统中的文件组织、分布以及其在磁盘上的实现、数据的访问特性、高性能网络文件系统、系统的负载平衡与缓冲和预取策略。  相似文献   

8.
集群计算系统中并行文件系统的研究是当前计算机与网络技术中的一个热点问题,而并行I/O是缓解系统数据输入输出瓶颈的一个技术途径.论文对当前集群系统中的并行文件系统与并行I/O做了研究,阐述了研究发展的现状、关键问题等,指出了在集群计算系统中的文件组织、分布以及其在磁盘上的实现、数据的访问特性、高性能网络文件系统、系统的负载平衡与缓冲和预取策略.  相似文献   

9.
本文基于网络磁盘阵列的工作特征,提出了一种标记命令排队策略。该策略通过跟踪网络磁盘阵列所接收的多个网络用户的请求,按这些请求的数据的逻辑地址进行排队,使 得系统的性能得到改善。理论分析和测试结果表明,这一策略使磁盘的磁头臂按一定的规律移动,降低了磁盘的I/O时间,缩短了I//O平均响应时间,提高了系统的整体性
性能。  相似文献   

10.
当前虚拟化系统中的设备仿真过程与I/O指令串行执行,无法发挥真实体系结构中直接存储器访问、异步I/O等加速I/O访问技术的性能优势,致使虚拟平台I/O性能与真实I/O性能存在一定差距。针对该问题,提出一种独立式I/O虚拟化方法,通过将I/O仿真活动(如磁盘读写)分离成一个独立的进程,虚拟机监控器(VMM)只保留相应的接口,达到将VMM与I/O设备分离实现仿真与指令并行化执行的目的,并基于QEMU平台实现该方法。实验结果表明,采用该方法后的QEMU I/O读写性能优于原有I/O子系统。由于I/O指令不必再等待I/O仿真的结束,因此在提高CPU指令执行速度的同时,能够有效提高4.9%的磁盘读取速度及9.2%的VGA测试基准软件Viewpref得分。  相似文献   

11.
Hadoop平台的性能优化研究   总被引:10,自引:0,他引:10       下载免费PDF全文
随着基于MapReduce模型的应用程序越来越多,Hadoop性能取决于应用程序。针对上述特性,从应用着手剖析Hadoop存在的局限和不足,提出解决方案,利用作业和任务的多重并发平衡磁盘和网络带宽,减小瓶颈出现的可能性,提高系统性能。  相似文献   

12.
在云存储中心, 由于节点失效带来的文件数据块副本丢失不仅会影响系统的可靠性, 还会影响文件的并发访问效率. 针对Hadoop中默认的副本复制方法存在的问题, 即副本复制过程某些节点数据传输过于集中, 负载不均衡, 磁盘I/O吞吐率低, 提出一种基于热度的快速副本复制算法. 该算法优先复制热度高的数据块, 合理选择数据块复制的源节点和目的节点. 仿真结果表明, 该算法平衡了系统的工作负载, 提高了磁盘I/O吞吐率, 显著降低用户请求平均响应时间.  相似文献   

13.
《Parallel Computing》2014,40(10):722-737
The MapReduce programming model, in which the data nodes perform both the data storing and the computation, was introduced for big-data processing. Thus, we need to understand the different resource requirements of data storing and computation tasks and schedule these efficiently over multi-core processors. In particular, the provision of high-performance data storing has become more critical because of the continuously increasing volume of data uploaded to distributed file systems and database servers. However, the analysis of the performance characteristics of the processes that store upstream data is very intricate, because both network and disk inputs/outputs (I/O) are heavily involved in their operations. In this paper, we analyze the impact of core affinity on both network and disk I/O performance and propose a novel approach for dynamic core affinity for high-throughput file upload. We consider the dynamic changes in the processor load and the intensiveness of the file upload at run-time, and accordingly decide the core affinity for service threads, with the objective of maximizing the parallelism, data locality, and resource efficiency. We apply the dynamic core affinity to Hadoop Distributed File System (HDFS). Measurement results show that our implementation can improve the file upload throughput of end applications by more than 30% as compared with the default HDFS, and provide better scalability.  相似文献   

14.
封闭数据立方是一种有效的无损压缩技术,它去掉了数据立方中的冗余信息,从而有效降低了数据立方的存储空间、加快了计算速度,而且几乎不影响查询性能.Hadoop的MapReduce并行计算模型为数据立方的计算提供了技术支持,Hadoop的分布式文件系统HDFS为数据立方的存储提供了保障.为了节省存储空间、加快查询速度,在传统数据立方的基础上提出封闭直方图立方,它在封闭数据立方的基础上通过编码技术进一步节省了存储空间,通过建立索引加快了查询速度.Hadoop并行计算平台不论从扩展性还是均衡性都为封闭直方图立方提供了保证.实验证明:封闭直方图立方对数据立方进行了有效压缩,具有较高的查询性能,根据Hadoop的特点通过增加节点个数明显加快了计算速度.  相似文献   

15.
基于Hadoop的仿射传播大数据聚类分析方法   总被引:1,自引:0,他引:1  
仿射传播聚类算法(AP)是一个新的聚类分析方法,已经被广泛应用于各种领域。APC算法不能用于大型数据的分析。为了克服这个限制,在Hadoop分布式框架的基础上提出一种改进的放射传播聚类分析方法(基于Hadoop的仿射传播大数据聚类分析方法,简称APCH)。通过在Hadoop环境下重新设计算法流程,APCH算法成为了一个并行化的大数据聚类分析方法。此外APCH算法能够高效操作大数据,并能够直接决定聚类的个数。为了验证方法的性能,在多个数据集上进行了实验。实验结果表明APCH对大数据处理有很好的适应性和延展性。APCH采用开源的方式提供可执行软件程序和源代码,用户可以下载后部署在自己的分布式集群中或者是部署在亚马逊EC2等云计算环境中。所有编译后的执行程序,源代码,用户手册,部分测试数据集均可以从https://github.com/HelloWorldCN/MapReduceAPC上下载。  相似文献   

16.
基于开源Hadoop的矢量空间数据分布式处理研究   总被引:1,自引:0,他引:1  
为实现大规模矢量数据的高性能处理,在开源项目Hadoop基础上,设计与开发了一个基于MapReduce的矢量数据分布式计算系统。根据矢量空间数据的特点,通过分析Key/Value数据模型及GeoJSON地理数据编码格式,构建了可存储于Hadoop hdfs的矢量数据Key/Value文本文件格式;探讨矢量数据的MapReduce计算过程,对Map数据分片、并行处理过程及Reduce结果合并等关键步骤进行了详细阐述;基于上述技术,建立了矢量数据分布式计算原型系统,详细介绍系统组成,并将其应用于处理关中地区1∶10万土地利用矢量空间数据,取得较好效果。  相似文献   

17.
传统的数据分析,很难满足现阶段大数据处理效率的要求.Hadoop云计算技术的应用,实现了海量数据存储和分析,提高了数据存储和分析的效率.在总结传统系统利弊的基础上,以Hadoop分布式文件系统(HDFS)取代现有的单机数据存储,以map/reduce应用程序取代传统的单机数据分析,并对其做出优化.实验证明,Hadoop系统架构在生产上部署、投入使用的可行性.  相似文献   

18.
随着互联网发展带来的数据爆炸,使得 Web日志的数据量也越来越大,如何从海量的 Web 日志中挖掘有价值的信息成为了目前研究的热点。本文提出基于 Hadoop 集群框架对 Web 日志进行挖掘。实验结果表明,该集群系统既可以处理海量的 web 日志,同时也能够挖掘出有价值的信息,并证实了利用sqoop在 Hive仓库和传统数据库之间数据迁移的可行性。  相似文献   

19.
In the last decades, there has been an explosion in the volume of data to be processed by data-intensive computing applications. As a result, processing I/O operations efficiently has become an important challenge. SSDs (solid state drives) are an effective solution that not only improves the I/O throughput but also reduces the amount of I/O transfer by adopting the concept of active SSDs. Active SSDs offload a part of the data-processing tasks usually performed in the host to the SSD. Offloading data-processing tasks removes extra data transfer and improves the overall data processing performance.In this work, we propose ActiveSort, a novel mechanism to improve the external sorting algorithm using the concept of active SSDs. External sorting is used extensively in the data-intensive computing frameworks such as Hadoop. By performing merge operations on-the-fly within the SSD, ActiveSort reduces the amount of I/O transfer and improves the performance of external sorting in Hadoop. Our evaluation results on a real SSD platform indicate that the Hadoop applications using ActiveSort outperform the original Hadoop by up to 36.1%. ActiveSort reduces the amount of write by up to 40.4%, thereby improving the lifetime of the SSD.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号