期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

郑启龙王向前王昊《计算机工程》2010,36(20):102-105

提出一种针对HPMR系统的KV路由算法。HPMR系统是MapReduce模型的一个实现,改进了MapReduce模型以适应高性能计算的需求。HPMR的KV路由算法生成KV路由表,所有数据的收发动作将依据该路由表进行。KV路由算法产生的KV路由表直接决定HPMR系统在通信阶段的时间开销。实验结果表明,该KV路由算法产生的KV路由表可以提高HPMR系统的通信性能。相似文献

2.

大型3D场景漫游系统内存管理 总被引：1，自引：0，他引：1

肖康刘福岩《计算机工程与设计》2010,31(10)

在大型3D场景漫游系统中,单个资源(如模型、纹理)所需内存较大且分配和释放频繁,为了防止内存碎片的产生并提高内存分配速度,提出了一种新型内存管理方法.根据程序需求首先划分出一块或多块大的虚拟内存区域,然后基于所划分的内存区域进行内存分配和回收管理.在该管理方法中,对于程序中的小资源,使用内存池;对于大的资源,则使用伙伴系统内存管理方法.实验结果表明,该内存管理方法高效且稳定. 相似文献

3.

基于MPI的分布式数据处理系统

赵宝琦李卫东邹佳恒林韬颜田《计算机工程》2019,45(7):20-25

为简化江门中微子实验的离线数据处理流程,减少资源消耗,提出一种在分布式计算环境中进行数据处理的通用软件系统。基于信息传递接口实现节点间的通信与数据交换,使用Master/Worker架构对计算作业生命周期进行管理,包括计算作业拆分、计算资源分配以及计算任务执行与监控。测试结果表明,该系统具有良好的可扩展性,其产生的数据与人工逐步执行作业脚本运行模拟软件产生的数据一致。相似文献

4.

基于Hadoop的高性能海量数据处理平台研究 总被引：2，自引：0，他引：2

翟岩龙罗壮杨凯徐晟晨《计算机科学》2013,40(3):100-103

海量数据高性能计算蕴藏着巨大的应用价值,但是目前云计算体系只具有海量数据处理能力,而不具有足够的高性能计算能力。将具有超强并行计算能力的CPU与云计算相融合,提出了基于CPU/GPU协同的异构高性能云计算体系结构。以开源Hadoop为基础,采用注释码的形式对MapReduce函数中需要并行的部分进行标记。通过定制GPU类加载器,将被标记代码转换为CUDA代码并动态编译运行。该平台将GPU的计算能力融合到MapReduce框架中,可高效处理海量数据。相似文献

5.

MapReduce:新型的分布式并行计算编程模型 总被引：3，自引：0，他引：3

李成华张新访金海向文《计算机工程与科学》2011,33(3):129

MapReduce是Google提出的分布式并行计算编程模型,用于大规模数据的并行处理。Ma-pReduce模型受函数式编程语言的启发,将大规模数据处理作业拆分成若干个可独立运行的Map任务,分配到不同的机器上去执行,生成某种格式的中间文件,再由若干个Reduce任务合并这些中间文件获得最后的输出文件。用户在使用MapReduce模型进行大规模数据处理时,可以将主要精力放在如何编写Map和Reduce函数上,其它并行计算中的复杂问题诸如分布式文件系统、工作调度、容错、机器间通信等都交给MapReduce系统处理,在很大程度上降低了整个编程难度。MapReduce日益成为云计算平台的主流编程模型。Apache Hadoop项目提供开源的MapReduce系统还有待进一步完善。相似文献

6.

异构Hadoop集群下的比例数据分配策略

魏文娟王黎明《计算机应用与软件》2015,(6)

针对异构Hadoop环境下仍采用均等的数据分配方法将严重降低MapReduce的性能,提出比例数据分配策略。通过计算异构集群中各节点的计算比率,将已经分割好的数据块重新进行组合,形成数个按比例划分的数据块。每个节点根据自身性能来选择所分配和存储的数据块,从而使异构Hadoop集群中各节点处理数据的时间大致相同,降低节点之间数据的移动量。实验验证了提出的比例数据分配方法可以有效地提高MapReduce的性能,并使数据负载均衡。相似文献

7.

一种基于VxWorks的内存分配算法 总被引：2，自引：0，他引：2

朱筱菲黄凤岗《工业控制计算机》2006,19(2):17-18,20

研究了VxWorks系统内存分配算法,指出了常用内存管理算法的局限性,在此基础上,提出了一种改进的内存分配算法.改进的内存分配算法包括优化的内存块分配算法和快速高效的动态内存分配算法,两者结合使用将会有效提高嵌入式系统的性能.对改进内存算法的实现作了详细的介绍. 相似文献

8.

基于迭代式MapReduce的FCM算法实现

赵虎左开伟《计算机测量与控制》2016,24(11)

针对模糊C均值聚类(Fuzzy c-Means Clustering, FCM)算法聚类过程迭代的特点,采用迭代式MapReduce模型对FCM算法进行了优化实现。Map函数计算每个样本到聚类中心的隶属度,Reduce函数接收Map函数的中间输出计算新的聚类中心,传递模块将最新聚类中心传送给原Map任务所在节点,供新一轮MapReduce job使用。迭代式MapReduce模型在MapReduce基本模型上添加了传递模块,有效解决了基本模型在处理迭代问题上存在的不足。在Hadoop平台中,分别使用基于迭代式MapReduce和MapReduce基本模型的FCM算法对变压器进行故障诊断。实验结果表明,基于迭代式MapReduce的FCM算法诊断速度达到了基于MapReduce基本模型算法诊断速度的12倍以上,误判率降低了12%~15%,有效提升了FCM算法的诊断效率。相似文献

9.

Spark任务间消息传递方法研究

下载免费PDF全文

夏立斌刘晓宇孙玮姜晓巍孙功星《计算机工程与应用》2022,58(21):91-97

当今诸多工程问题及科学研究中,都面临着大数据处理和高性能计算任务的双重挑战。基于内存计算技术提出的分布式处理框架Spark已在学术和工业界得到了广泛的应用,但其MapReduce-like的编程模型在任务间无法进行通信,导致科学计算中的数值算法无法进行高效实现。针对上述问题,研究了一种Spark内存计算与MPI消息传递模型相结合的解决方案,充分利用内存访问存取快速的特点和MPI的多种高性能通信机制,解决了Spark编程模型表达能力不足的缺陷,同时为MPI提供了面向数据的DAG计算方式。通过对Spark内部的运行环境和调度系统进行修改,使得MPI在Spark中得以无缝融合,为高性能计算和大数据任务提供了一个统一的内存计算系统。测试结果表明,在数值计算和迭代算法上相比Spark至少有50%的性能提升。相似文献

10.

MRI:面向并行迭代的MapReduce模型

马志强张力杨双涛《计算机工程与科学》2016,38(12):2434-2441

机器学习领域内的多数模型均需要通过迭代计算以求解其最优参数,而MapReduce模型在迭代计算中的缺陷不足导致其在迭代计算中无法得到广泛应用。为解决上述矛盾,基于MapReduce模型提出并实现了一种可用于模型参数求解的并行迭代模型MRI。MRI模型在保持Map以及Reduce阶段的基础上,新增了Iterate阶段以及相关通信协议,实现了迭代过程中模型参数的更新、分发与迭代控制;通过对MapReduce状态机进行增强,实现了节点任务的重用,避免了迭代过程中节点任务重复创建、初始化以及回收带来的性能开销;在任务节点实现了数据缓存,保障了数据的本地性,并在Map节点增加了基于内存的块缓存机制,进一步提高训练集加载效率,以提高整体迭代效率。基于梯度下降算法的实验结果表明:MRI模型在并行迭代计算方面性能优于MapReduce模型。相似文献

11.

HPMR在并行矩阵计算中的应用 总被引：3，自引：1，他引：2

下载免费PDF全文

郑启龙吴晓伟房明王昊汪胜王向前《计算机工程》2010,36(8):49-51

为了解决传统并行编程难度大、效率低的问题,提出一种基于MapReduce模型的并行编程方法,在高性能MapReduce平台上实现矩阵并行LU分解。实验结果表明,相比传统并行编程模型,MapReduce模型并行程序可较好满足高性能数值计算需求,其编程简洁性和可读性能有效提升并行编程效率。相似文献

12.

MapReduce框架下基于B 树的高维索引

梁俊杰肖瑶余敦辉《计算机应用研究》2016,33(3)

针对MapReduce数据块处理机制、高维数据分布特征和KNN查询需求,本文设计一种基于B 树的高维索引结构（iPartition）,创新性提出基于主成分区分度的优化数据划分策略和邻接数据域分散存储等原则,将数据均匀划分到不同的Slave节点,使尽可能多的数据域对计算共同贡献,提升MapReduce任务处理并行性;利用B 树构造分布式的双层索引实现查询时数据范围快速过滤,降低高维计算代价。实验表明,iPartition在高维数据近似查询环境下,具有良好的性能和扩展性。相似文献

13.

MapReduce集群环境下的数据放置策略

荀亚玲张继福秦啸《软件学报》2015,26(8):2056-2073

MapReduce是一种适用于大规模数据密集型应用的有效编程模型,具有编程简单、易于扩展、容错性好等特点,已在并行和分布式计算领域得到了广泛且成功的应用.由于MapReduce将计算扩展到大规模的机器集群上,处理数据的合理放置成为影响MapReduce集群系统性能(包括能耗、资源利用率、通信和I/O代价、响应时间、系统的可靠性和吞吐率等)的关键因素之一.首先,对MapReduce编程模型的典型实现——Hadoop缺省的数据放置策略进行分析,并进一步讨论了MapReduce框架下,设计数据放置策略时需考虑的关键问题和衡量数据放置策略的标准;其次,对目前MapReduce集群环境下的数据放置策略优化方法的研究与进展进行了综述和分析;最后,分析和归纳了MapReduce集群环境下数据放置策略的下一步研究工作. 相似文献

14.

基于火电机组性能计算的软件建模与仿真

宋豫军《自动化与仪器仪表》2014,(9):159-160

以电厂热力系统为目标对象,对其特点进行相关分析。以电厂基本设备为最小组成单位,将热力系统划分成若干模块,然后基于此为不同单元构建了相应的仿真模块。融合组态技术以及面向目标的设计理念,设计了能够对火电机组热力性能进行数据处理的计算软件,该软件主要包括以下模块：一、原始数据输入模块;二、仿真计算模块;三、结果输出模块;四、数据管理模块等。设置图形组态环境,同时构建热力设备所对应的仿真模型,能够让软件获得包括可视化和可组态化在内的两大基本功能,如此一来,赋予软件良好的通用性,使其可以满足多个机组、多种状态下的相关计算。相似文献

15.

共享存储MapReduce云计算性能测试方法

下载免费PDF全文

冯国富王明李亮陈明《计算机工程》2012,38(6):50-52

为优化大量云计算线程对共享存储的访问,提出一种共享存储MapReduce云计算性能测试方法。以Oprofile为中心,对云计算的应用逻辑、动态共享库及内核系统调用进行性能统计分析,通过Valgrind与Ptrace机制完成对存储访问及系统调用的计数与计时。实验结果表明,该方法可快速定量分析共享存储的MapReduce,发现应用的内在性能瓶颈。相似文献

16.

基于Spark的ItemBased推荐算法性能优化

廖彬张陶国冰磊于炯张旭光刘炎《计算机应用》2017,37(7):1900-1905

MapReduce计算场景下,复杂的大数据挖掘类算法通常需要多个MapReduce作业协作完成,但多个作业之间严重的冗余磁盘读写及重复的资源申请操作,使得算法的性能严重降低。为提高ItemBased推荐算法的计算效率,首先对MapReduce平台下ItemBased协同过滤算法存在的性能问题进行了分析;在此基础上利用Spark迭代计算及内存计算上的优势提高算法的执行效率,并实现了基于Spark平台的ItemBased推荐算法。实验结果表明：当集群节点规模分别为10与20时,算法在Spark中的运行时间分别只有MapReduce中的25.6%及30.8%,Spark平台下的算法相比MapReduce平台,执行效率整体提高3倍以上。相似文献

17.

基于分布式的玻璃缺陷检测技术研究及性能优化

下载免费PDF全文

孟陆金永《计算机测量与控制》2019,27(12):47-51

玻璃检测速度的的提高会在短时间会产生大量图像数据,传统分布式框架MapReduce处理速度和及时性无法满足玻璃缺陷检测的要求。课题将MapReduce分布式框架运用到海量图像处理,设计阈值分割算法完成对玻璃缺陷图像的处理。通过添加数据划分模块使计算与存储本地化,加快数据处理的及时性。实验结果表明改进的MapReduce计算框架处理速度平均提高14.1%,能够对运行速度为600m/h的玻璃带进行在线检测,并检测出玻璃带上缺陷的个数、位置和缺陷的类型。相似文献

18.

大数据背景下高校招生策略预测

下载免费PDF全文

杨正理史文陈海霞王长鹏《智能系统学报》2019,14(2):323-329

在应届高中生生源不断下降、高等院校招生规模不断扩大、招生方式多元化不断发展、各院校之间招生竞争日趋激烈的条件下,利用海量招生异构数据,准确定位生源对象,做好前期招生宣传是各高等院校需要考虑的重要问题。结合云计算技术,利用并行化计算模型MapReduce和内存并行化计算框架Spark对高校招生历史数据进行分析,提出采用并行化随机森林预测高校招生策略模型,缩短了模型的预测时间、提高了模型的预测精度、增强了模型对大数据的处理能力。实验结果表明,并行化随机森林算法在不同数据集上的多方面性能均优于常用的决策树预测方法。相似文献

19.

MapReduce with communication overlap (MaRCO)

Faraz Ahmad Seyong Lee Mithuna Thottethodi T.N. Vijaykumar 《Journal of Parallel and Distributed Computing》2013

MapReduce is a programming model from Google for cluster-based computing in domains such as search engines, machine learning, and data mining. MapReduce provides automatic data management and fault tolerance to improve programmability of clusters. MapReduce’s execution model includes an all-map-to-all-reduce communication, called the shuffle, across the network bisection. Some MapReductions move large amounts of data (e.g., as much as the input data), stressing the bisection bandwidth and introducing significant runtime overhead. Optimizing such shuffle-heavy MapReductions is important because (1) they include key applications (e.g., inverted indexing for search engines and data clustering for machine learning) and (2) they run longer than shuffle-light MapReductions (e.g., 5x longer). In MapReduce, the asynchronous nature of the shuffle results in some overlap between the shuffle and map. Unfortunately, this overlap is insufficient in shuffle-heavy MapReductions. We propose MapReduce with communication overlap (MaRCO) to achieve nearly full overlap via the novel idea of including reduce in the overlap. While MapReduce lazily performs reduce computation only after receiving all the map data, MaRCO employs eager reduce to process partial data from some map tasks while overlapping with other map tasks’ communication. MaRCO’s approach of hiding the latency of the inevitably high shuffle volume of shuffle-heavy MapReductions is fundamental for achieving performance. We implement MaRCO in Hadoop’s MapReduce and show that on a 128-node Amazon EC2 cluster, MaRCO achieves 23% average speed-up over Hadoop for shuffle-heavy MapReductions. 相似文献