期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张镇平谭怀亮周炜《计算机工程》2011,37(6):280-282

提出一种针对iSCSI网络计算系统的I/O加速策略——基于相似负载的iSCSI透明可靠多播。通过对I/O请求数据块进行相似负载判定以及对原有iSCSI协议进行扩展,在iSCSI网络计算系统中构建数据传输双路径——iSCSI协议数据包路径和相似负载的多播路径,以提高网络计算数据的加载速度。测试结果表明,该策略能有效提升多个客户主机的并发I/O性能。相似文献

2.

负载类型相关的Xen虚拟机系统性能模型

余勇车建华徐焕良蒋诚智《计算机科学》2016,43(11):210-214

针对Xen虚拟机系统执行网络I/O密集型负载时容易耗尽Domain0的CPU资源而过载和执行计算密集型负载时在客户域平均性能与数目之间存在线性规划的问题,提出了两个负载类型相关的性能模型。首先,通过分析Xen虚拟机系统处理网络I/O操作的CPU资源消耗规律,建立了CPU核共享和CPU核隔离两种情况下的客户域网络I/O操作请求次数计算模型;然后,通过分析多个相同客户域并行执行计算密集型负载的平均性能与一个相同客户域执行相同负载的性能表现之间的关系,建立了并行执行计算密集型负载的客户域平均性能分析模型。实验结果表明,两个性能模型能够有效地限制客户域提交的网络I/O操作请求次数以防止Xen虚拟机系统过载,并求解给定资源配置情况下执行计算密集型负载的Xen虚拟机系统客户域伸缩性数目。相似文献

3.

基于内存与文件共享机制的Spark I/O性能优化

《计算机工程》2017,(3):1-6

通过对Spark采用的弹性分布式数据集及任务调度等关键技术进行分析,发现数据处理I/O时间是影响Spark计算性能的主要瓶颈。为此,研究Spark合并文件运行模式,该模式能够减少缓存文件数量,提高Spark的I/O效率,但存在内存开销较高的缺点。在此基础上,给出改进的Spark Shuffle过程,即通过设计一种使每个Mapper只生成一个缓存文件的运行模式,并且每个Mapper共享同一个内存缓冲区,从而提高I/O效率和减少内存开销。仿真结果表明,与Spark默认模式相比,该运行模式宽依赖计算过程的I/O时间缩短42.9%,可有效提高内存利用率和Spark平台运算效率。相似文献

4.

压缩对Hadoop性能影响研究

下载免费PDF全文

向丽辉缪力张大方《计算机工程与科学》2015,37(2):207-212

当今,磁盘I/O的发展速度永远赶不上遵照摩尔定律的CPU的发展速度,并且网络I/O资源稀缺,所以I/O常常成为数据处理的瓶颈。Hadoop能存储PB级数据,因此I/O问题愈加显著。压缩是I/O调优的一个重要方法,它能减少I/O的负载,加快磁盘和网络上的数据传输。首先通过分析Hadoop中各压缩算法的特点,得出一个压缩使用策略来帮助Hadoop的使用者确定如何使用压缩,并用实验得以验证补充。基于该策略,一些Hadoop应用在合理使用压缩后,效率能提高65%。相似文献

5.

高性能计算环境下基于远程I/O负载平衡调度算法

刘海龙张延园汤小春《计算机应用研究》2005,22(10):56-58

在高性能计算环境中数据和应用程序往往分散在不同的节点,远程I/O的效率成为影响高性能计算性能的一个重要因素。为了提高系统的I/O效率,引入了一种基于远程I/O负载平衡调度算法。该算法采用了一种预约机制,可以对节点I/O负载进行动态调整、更好地利用网络带宽。详细介绍了该算法的实现过程,并且在一个模拟环境下对该算法的效果进行了评测。相似文献

6.

HPC Cloud环境中基于网络Ⅰ/O负载的虚拟机放置算法

吴松王飞石宣化金海王志武《中国科学:信息科学》2012,(3):290-302

随着虚拟化技术和云计算技术的发展,越来越多的高性能计算应用运行在云计算资源上.在基于虚拟化技术的高性能计算云系统中,高性能计算应用运行在多个虚拟机之中,这些虚拟机可能放置在不同的物理节点上.若多个通信密集型作业的虚拟机放置在相同的物理节点上,虚拟机之间将竞争物理节点的网络Ⅰ/O资源,如果虚拟机对网络Ⅰ/O资源的需求超过物理节点的网络Ⅰ/O带宽上限,将严重影响通信密集型作业的计算性能.针对虚拟机对网络Ⅰ/O资源的竞争问题,提出一种基于网络Ⅰ/O负载均衡的虚拟机放置算法NLPA,该算法采用网络Ⅰ/O负载均衡策略来减少虚拟机对网络Ⅰ/O资源的竞争.实验表明,与贪心算法进行比较,对于同样的高性能计算作业测试集,NLPA算法在完成作业的计算时间、系统中的网络Ⅰ/O负载吞吐率、网络Ⅰ/O负载均衡3个方面均有更好的表现. 相似文献

7.

基于集群的MPI主从式并行文件传输系统的研究与实现 总被引：1，自引：0，他引：1

龚梅王鹏《电子技术应用》2007,33(11):121-124

研究并实现了一种基于PC集群系统的MPI主从式并行文件传输系统。通过引入一个监控节点实时监控当前各真实节点上的连接数、请求任务量以及各节点的实际处理能力,并衡量不同内容节点的负载,以实现集群内各节点负载均衡,从而更合理地实现并行文件I/O的任务分配。结果显示,该系统具有近似线性加速比,即文件I/O传输速度随着并行节点数量的增多而提高。相似文献

8.

基于灰色马尔可夫链预测模型的HDFS云存储副本选择策略

徐骁勇潘郁丁燕艳《计算机应用》2011,31(Z2):39-42

在Hadoop分布式文件系统(HDFS)云存储环境下,网络带宽和节点性能有限且动态变化,现有的副本选择策略无法根据环境的变化选择最合适副本.针对这一问题,提出一种综合考虑了网络带宽、节点I/O性能以及节点存储空间等因素,基于灰色马尔可夫链预测模型的副本选择策略,以此在系统可用性和负载均衡性之间寻求一个平衡.最后通过仿真实验,验证了该策略的可行性与有效性. 相似文献

9.

一种基于移动Agent的计算网格自主调度策略

罗飞《数字社区&智能家居》2009,(9)

提出了基于移动Agent的自主调度策略。该策略以需求为驱动进行任务调度。一旦节点负载低于某一给定阈值时,ASP则在MAGP中寻找任务。由于在任务分派的过程中,策略会自动产生任务副本,并在任务执行过程中,跟踪任务及副本的状态,因此还具有一定的容错能力,当网络或节点出现硬故障时,不会影响任务的执行。相似文献

10.

一种基于条带的一致性散列数据放置算法

魏征窦禹高艳珍马捷孙凝晖邢晶《计算机研究与发展》2021,58(4):888-903

分布式存储系统作为数据存储的载体,广泛应用于大数据领域.纠删码存储方式相对副本方式,既具有较高的空间利用效率,又能保证数据存储的可靠性,因此被越来多的应用于存储系统当中.在EB级大规模纠删码分布式存储系统中,元数据管理成本较大,位置信息等元数据查询效率影响了I O时延和吞吐量.基于位置信息记录的有中心数据放置算法需要频繁访问元数据服务器,导致性能优化受限,基于Hash映射的无中心数据放置算法越来越多地得到应用.但面向纠删码的无中心放置算法,在节点变更和数据恢复过程中,存在位置变更困难、迁移数据量大、数据恢复和迁移并发度低等问题.提出了一种基于条带的一致性Hash数据放置算法(consistent Hash data placement algorithm based on stripe,SCHash),SCHash以条带为单位放置数据,通过把数据块到节点的映射转化为条带到节点组的映射过程,减少节点变动过程中的数据迁移量,从而在恢复过程中降低了变动数据的比例,加速了恢复带宽.并基于SCHash算法设计了一种基于条带的并发I O调度恢复策略,通过避免选取同一节点的数据块进行I O操作,提升了I O并行度,通过调度恢复I O和迁移I O的执行顺序,减少了数据恢复的执行时间.相比APHash数据放置算法,SCHash在数据恢复过程中,减少了46.71%~85.28%数据的迁移.在条带内重建时,恢复带宽提升了48.16%,在条带外节点重建时,恢复带宽提升了138.44%. 相似文献

11.

基于Spark的并行DBSCAN算法的设计与实现

黄明吉张倩《计算机科学》2017,44(Z11):524-529

随着云应用对运行时间和性能水平要求的逐步提高,以及内存价格的持续走低,基于内存的分布式计算框架Spark获得了前所未有的关注。主要研究DBSCAN算法在Spark上并行化的设计与实现,通过整体分析找到算法并行化可能的性能瓶颈,并从Spark的角度设计了并行DBSCAN算法的DAG图,优化了算法的并行化策略,最大化地降低了shuffle频率和数据量。最后将并行DBSCAN算法与单机DBSCAN算法进行性能对比,并通过实验分析不同参数对聚类结果的影响。结果表明,与单机DBSCAN算法相比,基于Spark的并行DBSCAN算法在聚类精度没有明显损失的情况下,数据量在3百万行时运行效率提高了37.2%,且加速比达到1.6。相似文献

12.

MapReduce与Spark用于大数据分析之比较 总被引：2，自引：0，他引：2

吴信东嵇圣硙《软件学报》2018,29(6):1770-1791

随着大数据时代的到来,海量数据的分析与处理已成为一个关键的计算问题.本文评述了MapReduce与Spark两种大数据计算算法和架构,从背景、原理以及应用场景进行分析和比较,并对两种算法各自优点以及相应的限制做出了总结.当处理非迭代问题时,MapReduce凭借其自身的任务调度策略和shuffle机制,在中间数据传输数量以及文件数目方面性能要优于Spark;而在处理迭代问题和一些低延迟问题时,Spark可以根据数据之间的依赖关系对任务进行更合理的划分,相较于MapReduce有效地减少中间数据传输数量与同步次数,提高系统的运行效率. 相似文献

13.

广播机制解决Shuffle过程数据倾斜的方法

下载免费PDF全文

吴恩慈《计算机系统应用》2019,28(6):189-197

在Spark计算平台中，数据倾斜往往导致某些节点承受更大的网络流量和计算压力，给集群的CPU、内存、磁盘和流量带来了巨大的负担，影响整个集群的计算性能.本文通过对Spark Shuffle设计和算法实现的研究，深入分析在大规模分布式环境下发生数据倾斜的本质原因.提出了广播机制避免Shuffle过程数据倾斜的方法，分析了广播变量分发逻辑过程，给出广播变量性能优势分析和该方法的算法实现.通过Broadcast Join实验验证了该方法在性能上有稳定的提升. 相似文献

14.

Spark性能优化技术研究综述 总被引：2，自引：0，他引：2

廖湖声黄珊珊徐俊刚刘仁峰《计算机科学》2018,45(7):7-15, 37

近年来,随着大数据时代的到来,大数据处理平台发展迅速,产生了诸如Hadoop,Spark,Storm等优秀的大数据处理平台,其中Spark最为突出。随着Spark在国内外的广泛应用,其许多性能问题尚待解决。由于Spark底层的执行机制极为复杂,用户很难找到其性能瓶颈,更不要说进一步的优化。针对以上问题, 从开发原则优化、内存优化、配置参数优化、调度优化、Shuffle过程优化5个方面对目前国内外的Spark优化技术进行总结和分析。最后,总结了目前Spark优化技术新的核心问题,并提出了未来的主要研究方向。相似文献

15.

基于Spark框架的乘潮水位计算与可视化平台

秦勃朱勇秦雪《计算机工程与科学》2015,37(12):2216-2221

乘潮水位计算是海洋环境信息处理的重要组成部分,具有计算量大、计算复杂度高、计算时间长等特性。采用传统集群计算模式实现乘潮水位计算业务,存在计算成本高、计算伸缩性和交互性差的问题。针对以上问题,提出一种基于Spark框架的乘潮水位计算和可视化平台。结合对Spark任务调度算法的研究,设计和实现了一种基于节点计算能力的任务调度算法,实现了长时间序列的多任务乘潮水位数据的检索、获取、数值计算、特征可视化的并行处理,达到了海量海洋环境数据计算和可视化处理的目的。实验结果表明,提出的基于Spark的乘潮水位计算和可视化平台可以有效地提高海量乘潮水位数据的分布式并行处理的效率,为更加快速和高效的乘潮水位计算提供了一种新的方法。相似文献

16.

基于混沌系统的对称图像加密方案 总被引：6，自引：2，他引：4

下载免费PDF全文

颜世银钱海峰李志斌《计算机工程》2008,34(14):155-157

采用基于外部密钥的复合混沌系统对数字图像进行对称加密,由外部密钥产生混沌系统的初始值。复合混沌系统由2个Logistic系统构成,一个用来产生置换矩阵,对图像进行像素置换操作,另一个用来产生灰度扰乱序列。在对灰度扰乱过程中,使用基于外部密钥导出的子密钥对灰度扰乱序列进行采样。在置换过程中,通过加入置换矩阵信息,使位置置换和像素替代过程以简单有效的方式复合,提高系统的耦合性。相似文献

17.

资源不均衡Spark环境任务调度优化算法研究

胡亚红盛夏毛家发《计算机工程与科学》2020,42(2):203-209

由于硬件资源的更新换代,集群中各个节点的计算能力会变得不一致。集群异构的出现导致集群计算资源不均衡。目前Spark大数据平台在任务调度时未考虑集群的异构性以及节点资源的利用情况,影响了系统性能的发挥。构建了集群节点的评价指标体系,提出利用节点的优先级来表示其计算能力。提出的节点优先级调整算法能够根据任务执行过程中节点的状态动态调整各个节点的优先级。基于节点优先级的Spark动态自适应调度算法(SDASA)则根据实时的节点优先级值完成任务的分配。实验表明,SDASA能够缩短任务在集群中的执行时间,从而提升集群整体计算性能。相似文献

18.

基于TPE的SpaRC算法超参数优化方法

邓丽武金达李科学卢亚康《计算机科学》2021,48(2):70-75

宏基因组序列组装在计算和内存上面临着巨大挑战。SpaRC(Spark Reads Clustering)是基于Apache Spark的宏基因组序列片段聚类算法,为来自下一代测序技术的数十亿测序片段聚类提供了一种可扩展的解决方案。但是,SpaRC算法参数的设置是一项非常具有挑战性的工作。SpaRC算法拥有许多对算法性能有着很大影响的超参数,选择合适的超参数集对于充分发挥SpaRC算法的性能来说是至关重要的。为了提高SpaRC算法的性能,探索了一种基于树状结构Parzen估计方法(Tree Parzen Estimator,TPE)的超参数优化方法,其能够利用先验知识高效地调节参数,并通过减少计算任务加速寻找最优参数,达到最佳聚类效果,从而避免昂贵的参数探索。对长序列片段(PacBio)和短序列片段(CAMI2)进行实验,结果表明,该方法在改善SpaRC算法性能方面有着良好的效果。相似文献

19.

Apriori algorithm optimization based on Spark platform under big data

《Microprocessors and Microsystems》2021

To extract useful information from massive data, based on the Spark platform, related techniques of the recommended algorithm were studied. Based on experimental data of a certain scale, the relationship between the various influencing factors of moral education evaluation was discussed and applied to the ranking statistics and correlation analysis functions. The evaluation index system of moral education was obtained. The results showed that Spark performed better than Hadoop in the parallelization implementation of the recommended algorithm. In the case of heterogeneous Spark clusters, the HSATS adaptive task scheduling strategy reduced the completion time of the job, and the utilization of cluster node resources was more reasonable. Therefore, the proposed optimization scheme of the recommendation algorithm improves the evaluation index of the recommendation system. 相似文献

20.

分布式流数据加载和查询技术优化

易佳薛晨王树鹏《计算机科学》2017,44(5):172-177

分布式流查询是一种基于数据流的实时查询计算方法,近年来得到了广泛的关注和快速发展。综述了分布式流处理框架在实时关系型查询上取得的研究成果;对涉及分布式数据加载、分布式流计算框架、分布式流查询的产品进行了分析和比较;提出了基于Spark Streaming和Apache Kafka构建的分布式流查询模型,以并发加载多个文件源的形式,设计内存文件系统实现数据的快速加载,相较于基于Apache Flume的加载技术提速1倍以上。在Spark Streaming的基础上,实现了基于Spark SQL的分布式流查询接口,并提出了自行编码解析SQL语句的方法,实现了分布式查询。测试结果表明,在查询语句复杂的情况下,自行编码解析SQL的查询效率具有明显的优势。相似文献