共查询到19条相似文献,搜索用时 187 毫秒
1.
随着大数据的发展,Hadoop系统成为了大数据处理中的重要工具之一。在实际应用中,Hadoop的I/O操作制约系统性能的提升。通常Hadoop系统通过软件压缩数据来减少I/O操作,但是软件压缩速度较慢,因此使用硬件压缩加速器来替换软件压缩。Hadoop运行在Java虚拟机上,无法直接调用底层I/O硬件压缩加速器。通过实现Hadoop压缩器/解压缩器类和设计C++动态链接库来解决从Hadoop系统中获得压缩数据和将数据流向I/O硬件压缩加速器两个关键技术,从而将I/O硬件压缩加速器集成到Hadoop系统框架。实验结果表明,I/O硬件压缩加速器的每赫兹压缩速度为15.9Byte/s/Hz,集成I/O硬件压缩加速器提升Hadoop系统性能2倍。 相似文献
2.
传统集群计算系统无法充分利用本地磁盘的存储资源和I/O,大量网络I/O成为系统瓶颈,导致资源利用率降低,并造成高昂的存储和网络成本.使用Hadoop处理分析作业可有效利用本地磁盘存储和I/O资源,而集群资源统一管理工具Mesos则使用轻量化的设计和高效的通信机制,能在不同计算集群之间动态共享集群资源.为此,分析高能物理数据处理的特点,利用Mesos构建异构集群间资源共享的高能物理实验数据处理系统,实现Torque/Maui和Hadoop集群的集成.测试结果表明,该系统能够在集群间动态分配集群资源,并利用本地存储和磁盘I/O显著降低网络I/O,提高集群资源利用率. 相似文献
3.
4.
5.
6.
Oracle中磁盘竞争是影响I/O速度、降低系统性能的常见问题,可以通过分离顺序I/O、利用分片技术分散随机I/O;分别存储数据和索引、消除磁盘上的非Oracle的I/O操作、减少数据迁移和数据链接、减少碎片等方法有效地减少磁盘竞争.提高系统性能. 相似文献
7.
并行文件系统与并行I/O研究 总被引:1,自引:0,他引:1
集群计算系统中并行文件系统的研究是当前计算机与网络技术中的一个热点问题,而并行I/O是缓解系统数据输入输出瓶颈的一个技术途径。论文对当前集群系统中的并行文件系统与并行I/O做了研究,阐述了研究发展的现状、关键问题等,指出了在集群计算系统中的文件组织、分布以及其在磁盘上的实现、数据的访问特性、高性能网络文件系统、系统的负载平衡与缓冲和预取策略。 相似文献
8.
集群计算系统中并行文件系统的研究是当前计算机与网络技术中的一个热点问题,而并行I/O是缓解系统数据输入输出瓶颈的一个技术途径.论文对当前集群系统中的并行文件系统与并行I/O做了研究,阐述了研究发展的现状、关键问题等,指出了在集群计算系统中的文件组织、分布以及其在磁盘上的实现、数据的访问特性、高性能网络文件系统、系统的负载平衡与缓冲和预取策略. 相似文献
9.
本文基于网络磁盘阵列的工作特征,提出了一种标记命令排队策略。该策略通过跟踪网络磁盘阵列所接收的多个网络用户的请求,按这些请求的数据的逻辑地址进行排队,使 得系统的性能得到改善。理论分析和测试结果表明,这一策略使磁盘的磁头臂按一定的规律移动,降低了磁盘的I/O时间,缩短了I//O平均响应时间,提高了系统的整体性
性能。 相似文献
性能。 相似文献
10.
当前虚拟化系统中的设备仿真过程与I/O指令串行执行,无法发挥真实体系结构中直接存储器访问、异步I/O等加速I/O访问技术的性能优势,致使虚拟平台I/O性能与真实I/O性能存在一定差距。针对该问题,提出一种独立式I/O虚拟化方法,通过将I/O仿真活动(如磁盘读写)分离成一个独立的进程,虚拟机监控器(VMM)只保留相应的接口,达到将VMM与I/O设备分离实现仿真与指令并行化执行的目的,并基于QEMU平台实现该方法。实验结果表明,采用该方法后的QEMU I/O读写性能优于原有I/O子系统。由于I/O指令不必再等待I/O仿真的结束,因此在提高CPU指令执行速度的同时,能够有效提高4.9%的磁盘读取速度及9.2%的VGA测试基准软件Viewpref得分。 相似文献
11.
12.
13.
《Parallel Computing》2014,40(10):722-737
The MapReduce programming model, in which the data nodes perform both the data storing and the computation, was introduced for big-data processing. Thus, we need to understand the different resource requirements of data storing and computation tasks and schedule these efficiently over multi-core processors. In particular, the provision of high-performance data storing has become more critical because of the continuously increasing volume of data uploaded to distributed file systems and database servers. However, the analysis of the performance characteristics of the processes that store upstream data is very intricate, because both network and disk inputs/outputs (I/O) are heavily involved in their operations. In this paper, we analyze the impact of core affinity on both network and disk I/O performance and propose a novel approach for dynamic core affinity for high-throughput file upload. We consider the dynamic changes in the processor load and the intensiveness of the file upload at run-time, and accordingly decide the core affinity for service threads, with the objective of maximizing the parallelism, data locality, and resource efficiency. We apply the dynamic core affinity to Hadoop Distributed File System (HDFS). Measurement results show that our implementation can improve the file upload throughput of end applications by more than 30% as compared with the default HDFS, and provide better scalability. 相似文献
14.
封闭数据立方是一种有效的无损压缩技术,它去掉了数据立方中的冗余信息,从而有效降低了数据立方的存储空间、加快了计算速度,而且几乎不影响查询性能.Hadoop的MapReduce并行计算模型为数据立方的计算提供了技术支持,Hadoop的分布式文件系统HDFS为数据立方的存储提供了保障.为了节省存储空间、加快查询速度,在传统数据立方的基础上提出封闭直方图立方,它在封闭数据立方的基础上通过编码技术进一步节省了存储空间,通过建立索引加快了查询速度.Hadoop并行计算平台不论从扩展性还是均衡性都为封闭直方图立方提供了保证.实验证明:封闭直方图立方对数据立方进行了有效压缩,具有较高的查询性能,根据Hadoop的特点通过增加节点个数明显加快了计算速度. 相似文献
15.
基于Hadoop的仿射传播大数据聚类分析方法 总被引:1,自引:0,他引:1
唐东明 《计算机工程与应用》2015,51(4):29-34
仿射传播聚类算法(AP)是一个新的聚类分析方法,已经被广泛应用于各种领域。APC算法不能用于大型数据的分析。为了克服这个限制,在Hadoop分布式框架的基础上提出一种改进的放射传播聚类分析方法(基于Hadoop的仿射传播大数据聚类分析方法,简称APCH)。通过在Hadoop环境下重新设计算法流程,APCH算法成为了一个并行化的大数据聚类分析方法。此外APCH算法能够高效操作大数据,并能够直接决定聚类的个数。为了验证方法的性能,在多个数据集上进行了实验。实验结果表明APCH对大数据处理有很好的适应性和延展性。APCH采用开源的方式提供可执行软件程序和源代码,用户可以下载后部署在自己的分布式集群中或者是部署在亚马逊EC2等云计算环境中。所有编译后的执行程序,源代码,用户手册,部分测试数据集均可以从https://github.com/HelloWorldCN/MapReduceAPC上下载。 相似文献
16.
基于开源Hadoop的矢量空间数据分布式处理研究 总被引:1,自引:0,他引:1
为实现大规模矢量数据的高性能处理,在开源项目Hadoop基础上,设计与开发了一个基于MapReduce的矢量数据分布式计算系统。根据矢量空间数据的特点,通过分析Key/Value数据模型及GeoJSON地理数据编码格式,构建了可存储于Hadoop hdfs的矢量数据Key/Value文本文件格式;探讨矢量数据的MapReduce计算过程,对Map数据分片、并行处理过程及Reduce结果合并等关键步骤进行了详细阐述;基于上述技术,建立了矢量数据分布式计算原型系统,详细介绍系统组成,并将其应用于处理关中地区1∶10万土地利用矢量空间数据,取得较好效果。 相似文献
17.
传统的数据分析,很难满足现阶段大数据处理效率的要求.Hadoop云计算技术的应用,实现了海量数据存储和分析,提高了数据存储和分析的效率.在总结传统系统利弊的基础上,以Hadoop分布式文件系统(HDFS)取代现有的单机数据存储,以map/reduce应用程序取代传统的单机数据分析,并对其做出优化.实验证明,Hadoop系统架构在生产上部署、投入使用的可行性. 相似文献
18.
随着互联网发展带来的数据爆炸,使得 Web日志的数据量也越来越大,如何从海量的 Web 日志中挖掘有价值的信息成为了目前研究的热点。本文提出基于 Hadoop 集群框架对 Web 日志进行挖掘。实验结果表明,该集群系统既可以处理海量的 web 日志,同时也能够挖掘出有价值的信息,并证实了利用sqoop在 Hive仓库和传统数据库之间数据迁移的可行性。 相似文献
19.
In the last decades, there has been an explosion in the volume of data to be processed by data-intensive computing applications. As a result, processing I/O operations efficiently has become an important challenge. SSDs (solid state drives) are an effective solution that not only improves the I/O throughput but also reduces the amount of I/O transfer by adopting the concept of active SSDs. Active SSDs offload a part of the data-processing tasks usually performed in the host to the SSD. Offloading data-processing tasks removes extra data transfer and improves the overall data processing performance.In this work, we propose ActiveSort, a novel mechanism to improve the external sorting algorithm using the concept of active SSDs. External sorting is used extensively in the data-intensive computing frameworks such as Hadoop. By performing merge operations on-the-fly within the SSD, ActiveSort reduces the amount of I/O transfer and improves the performance of external sorting in Hadoop. Our evaluation results on a real SSD platform indicate that the Hadoop applications using ActiveSort outperform the original Hadoop by up to 36.1%. ActiveSort reduces the amount of write by up to 40.4%, thereby improving the lifetime of the SSD. 相似文献