期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

涂占乐陈庆奎席与亨《微计算机信息》2006,22(21):55-57

针对基于多计算机机群构成的网格的大规模并行计算的需要,对多级分组通信模型的单一机群分组通信进行了研究。探讨了在单一机群内的主动节点、被动节点个数和各个计算节点的能力以及机群网络的带宽之间的形式化关系,优化了通信结构,描述了基于能力优化机制的通信模型。理论和试验表明,该模型充分利用了机群的计算节点能力、网络通信能力。该模型适合基于网格的并行计算。相似文献

2.

SS-RTUDP:轻量级实时网络通信协议在集群系统中的实现

张明虎金海谭朋柳陈汉华李胜利《小型微型计算机系统》2006,27(1):6-11

轻量级实时网络通信协议对于科学计算集群与视频服务集群至关重要．SS—RTUDP以UDP协议为基础，通过以下途径在集群系统得到实现：静态分配网络资源、用户空间到内核空间的数据零拷贝操作、添加实时平滑层以及使用伪中断技术消除网卡硬件中断开销．性能测试结果表明该协议不仅具有较UDP更小的通信延迟与更高的通信带宽，同时较大程度提高了集群系统的实时通信性能．相似文献

3.

一个基于通信系统支持的并行检查点系统

下载免费PDF全文

霍志刚马捷孙凝晖《计算机工程》2007,33(5):217-219

在大规模机群环境下，检查点和恢复机制是一种必不可少的容错技术。该文提出一种基于机群通信系统的可靠性机制，在不作全局同步的情况下获取通信系统全局状态的方法，并利用该方法实现了一个对应用程序透明的并行检查点系统。该系统通过底层通信系统的支持降低了并行检查点的实现复杂度和执行开销，适用于大规模机群应用。相似文献

4.

面向多机群网格的通信模型

陈庆奎那丽春《计算机工程与应用》2006,42(27):103-105,120

在由多计算机机群构成的数据密集型网格环境下,为了解决通信峰值阶段的通信冲突问题,提出了一个基于能力优化机制的通信模型;给出了由多机群组成的数据密集型网格数据节点(DGDN)等形式化定义。利用计算节点通信能力、机群网络通信能力、主被动队列和分组优化策略、反向流压控制机制,研究了单个机群内的通信模型,并描述了网格上的通信模型。理论分析和实践表明,该模型有效地解决了数据密集型网格环境下通信峰值所造成的并行计算效率低下的问题。该模型适合于基于网格的数据密集型并行计算。相似文献

5.

一种分级可扩放全序组通信协议——RHGP

王文韬吴俊敏许胤龙李黄海鲍春健《计算机研究与发展》2006,43(10):1775-1781

并行分布式系统需要大量成员通过组通信协作完成某些特定的功能．当纽中包含大量成员且其关系不断变化时，传统组通信系统将会产生很多不必要的通信开销．提出了一种新型的基于令牌环的分级组通信协议（ring-based hierarchical group protocol，RHGP），支持全序消息递送和组成员的动态变化．该协议通过减少成员改变消息递送的次数，降低了组成员关系改变时的通信开销，增加了协议的可靠性．最后通过协议分析论证了该协议的可靠性和可扩放性，在成员失效率为0．1%、成员个数接近200时协议的可靠性为99．8646％．相似文献

6.

MPI_ALLTOALL实现算法的改进号性能分析

韩颖杨雷王佳《计算机工程与设计》2010,31(23)

通过分析全互换通信中4种算法的性能,提出了一种改进算法.该改进算法递归倍增的创建子进程,通过增加通信进程数目来减少通信次数.对比分析改进算法与成对互换算法的通信次数,改进算法的通信次数是成对互换算法的一半.实验机群是在版本为MPICH2-1.0.8并行环境下测试,结果表明,消息类型为长消息通信且通信进程教为2的幂次方时,该改进算法比成对互换算法的性能更优. 相似文献

7.

底层通信协议中内存映射机制的设计与实现^* 总被引：4，自引：1，他引：3

刘炜郑纬民申俊鞠大鹏《软件学报》1999,10(1):24-28

在底层网络通信协议中使用内存映射机制为用户层应用提供了虚拟网络界面,使用户层能够方便地访问快速通信设备;通过减少系统软件的协议处理开销,有效地减少了网络通信的延迟.讨论了通信协议中的内存映射机制的设计思想和实现过程,提出了通信区的概念,利用通信区有效地完成核心与用户之间的数据交换.同时给出一个实例,对其实现与性能进行了分析. 相似文献

8.

单套网络与多套网络通信性能的比较与分析

潘轲汤志忠都志辉《计算机工程与应用》2006,42(27):129-133

目前,以单套网络作为通信系统的机群广泛应用于科学计算中,为了进一步提高机群计算处理能力,引入了多套网络作为机群通信系统。多套网络能够明显地提高机群的通信性能,但是怀疑其应用性能是否也有相应的提高。为了解决疑问,在GM通信系统的基础上实现了双套网络的通信系统(PCS),并全面而又具体地对GM和PCS进行性能比较,实验数据表明:在通信性能方面,PCS的带宽比GM提高了98.4%,而延迟只增加了0.3!s￣0.5!s;在应用性能方面,对于通信量比较大、大消息比较频繁的应用程序,PCS能够取得很好的性能提高,如IS程序,执行时间减少了25.3%,而对于小消息通信比较频繁的应用程序,性能会略有下降,如LU程序,执行时间增加了0.4%。相似文献

9.

结合通信重排和消息合并的通信调度方法研究

彭晋韬杨章刘青凯张倩《计算机工程与科学》2020,42(2):191-196

网络通信对于高性能计算机应用至关重要。当前,随着数值模拟应用的复杂化和并行规模的不断提升,应用软件对于缓解拥塞和减少通信协议开销的需求愈发迫切。传统的消息合并方法只以减少通信协议开销和延迟为目标,所以针对小消息进行合并。与之不同的是,从调度算法的角度提出了一种通过消息重排以减缓大消息网络拥塞,并基于优先级合并消息来提高网络有效利用率的算法。实验表明,该算法针对真实应用的通信性能最大可以提升41%,平均对每个应用提升了10%。相似文献

10.

基于IPX协议的点对点实时通信技术 总被引：1，自引：0，他引：1

胡雪冰徐国标《计算机工程》1994,20(2):27-32

本文在比较基于网卡，基于ＮＥＴＢＩＯＳ及基于网络通信协议三种微机网络实时通信技术的基础上，详细介绍了ＮＯＶＥＬＬＮＥＴＷＡＲＥ基本通信协议ＩＰＸ的工作原理及其于ＩＰＸ实时通信技术的设计实现。相似文献

11.

基于高速通信协议的COSMOS机群文件系统性能研究 总被引：4，自引：0，他引：4

贺劲徐志伟孟丹马捷冯军《计算机研究与发展》2002,39(2):129-135

作为曙光3000超级服务器的重要组成部分,COSMOS机群文件系统对机群文件系统协议,结构及性能优化等问题进行全面深入的探讨,首先描述了基于曙光3000机群高速通协议BCL－3的COSMOS文件系统的实现,然后引入并发带宽利用率,描述了通信与I／O对机群文件系统性能影响程序,最后介绍了有关性能实验并对实验结果作出解释。相似文献

12.

一个适合大规模集群并行计算的检查点系统 总被引：5，自引：1，他引：4

周恩强卢宇彤沈志宇《计算机研究与发展》2005,42(6):987-992

分布式检查点系统是大规模并行计算系统容错的重要手段．协议开销和检查点映像存储成为困扰并行检查点系统可伸缩性的两大瓶颈．针对并行应用程序的执行特征和高性能集群的体系结构特点,C系统分别采用动态虚连接技术和分布存储检查点映像的方法来有效降低协同式检查点的开销,增强检查点系统的可伸缩性．初步测试结果表明,C系统的设计策略适合大规模并行计算的容错．相似文献

13.

基于安腾2的机群系统的实现与应用 总被引：2，自引：0，他引：2

下载免费PDF全文

赵军张磊李金才宋君强《计算机工程与科学》2007,29(7):85-87

本文设计并实现了一个基于安腾2处理器的机群计算系统,并结合安腾2处理器和机群系统的特性,对气象应用并行程序进行了I／O问题优化、通信优化、计算代价优化和通信数据的Cache利用率优化,以发挥该机群系统的长处,规避其弱点。测试结果表明,该机群系统适合气象应用并行软件的高效并行计算。相似文献

14.

基于机群系统的大规模并行搜索算法--大型离散偏微分方程组快速求解 总被引：4，自引：0，他引：4

都志辉王罡刘鹏陈渝李三立柳百成《小型微型计算机系统》2003,24(1):1-4

大量的科学与工程应用中,会经常遇到复杂偏微分方程组的求解问题,这些偏微分方程组一般无法得到分析解,实际采用的是将其离散后通过数值逼近方法来求得近似解.为了得到较高的求解精度,需要将离散网格划分得足够细,但是这样就成倍地增加了计算量,许多问题就是因为计算量过大而无法求解或不得不降低精度求解.本文在机群计算平台上,针对机群计算的特点,提出了一种大规模并行搜索算法,这种算法由于可以充分发挥各个结点的计算能力,有效降低结点之间的通信,因而具有很高的效率.文中对这一算法进行了详细描述.该算法已经成功地用于压力铸造过程的流场模拟计算之中,可以有效地解决一大类大型离散偏微分方程组的求解问题.对于同样规模的一个实际问题,并行算法的求解时间相对于串行算法,从3到4天下降到3个小时,取得了很好的并行加速. 相似文献

15.

Integrating Parallelizing Compilation Technologies for SMP Clusters

下载免费PDF全文

Xiao-BingFeng LiChen Yi-RanWang Xiao-MiAn LinMa Chun-LeiSang Zhao-QingZhang 《计算机科学技术学报》2005,20(1):0-0

In this paper, a source to source parallelizing compiler system, AutoPar, is presentd. The system transforms FORTRAN programs to multi-level hybrid MPI/OpenMP parallel programs. Integrated parallel optimizing technologies are utilized extensively to derive an effective program decomposition in the whole program scope. Other features such as synchronization optimization and communication optimization improve the performance scalability of the generated parallel programs, from both intra-node and inter-node. The system makes great effort to boost automation of parallelization. Profiling feedback is used in performance estimation which is the basis of automatic program decomposition. Performance results for eight benchmarks in NPB1.0 from NAS on an SMP cluster are given, and the speedup is desirable. It is noticeable that in the experiment, at most one data distribution directive and a reduction directive are inserted by the user in BT/SP/LU. The compiler is based on ORC, Open Research Compiler. ORC is a powerful compiler infrastructure, with such features as robustness, flexibility and efficiency. Strong analysis capability and well-defined infrastructure of ORC make the system implementation quite fast. 相似文献

16.

智能网卡驱动程序的性能评价 总被引：5，自引：1，他引：4

刘勇杨卫兵陈曜孙凝晖《计算机工程》2005,31(14):42-44,47

通信网络对机群系统的性能影响很大,建立高效的通信网络依赖快速网络硬件支持。智能网卡用十机群的快速接入,提高了Internet应用的性能,其中驱动程序是发挥智能网卡能力的关键,因而对驱动程序的性能评价很有必要。性能评价利用智能网卡提供的硬件性能计数器,采用性能测试法对智能网卡驱动程序进行性能分析。结果表明智能网卡驱动程序的性能瓶颈在于驱动程序较大的数据相关性。相似文献

17.

大规模结构有限元分析程序在多核集群计算环境中的性能分析和优化

吕海邸瑞华龚华《计算机科学》2012,39(1):305-310

通过对基于MPI编程模型实现的开源有限元计算分析软件在多核集群计算平台中的程序性能的分析,找出程序瓶颈及其原因,实现了基于MPI编程模型的并行程序在多核计算环境中的性能优化。根据程序性能瓶颈的分析,提出了基于MPI/OpenMP混合并行编程模型的大规模线性/非线性方程组求解和多线程多进程同时进行消息通信的两种程序性能优化方案。不同计算规模的实验结果表明,在多核集群计算平台中,MPI/OpenMP混合编程模型实现的大规模非线性方程组求解器相对于单纯基于MPI编程模型实现的并行程序,其性能有2倍到3倍的提升;多线程多进程同时消息传递的优化方案虽然对程序能够起到性能优化作用,但是对解决程序消息通信瓶颈的问题不是最好的方法。两个方案总体性能分析结果表明,基于MPI/OpenMP混合编程模型实现的并行程序,在多核集群计算平台中能够更好地发挥硬件系统的计算能力。相似文献

18.

A new fragment re-allocation strategy for NoSQL database systems

Zhikun?Chen Email author Shuqiang?Yang Shuang?Tan Li?He Hong?Yin Ge?Zhang 《Frontiers of Computer Science》2015,9(1):111-127

NoSQL databases are famed for the characteristics of high scalability, high availability, and high fault-tolerance. So NoSQL databases are used in a lot of applications. The data partitioning strategy and fragment allocation strategy directly affect NoSQL database systems’ performance. The data partition strategy of large, global databases is performed by horizontally, vertically partitioning or combination of both. In the general way the system scatters the related fragments as possible to improve operations’ parallel degree. But the operations are usually not very complicated in some applications, and an operation may access to more than one fragment. At the same time, those fragments which have to be accessed by an operation may interact with each other. The general allocation strategies will increase system’s communication cost during operations execution over sites. In order to improve those applications’ performance and enable NoSQL database systems to work efficiently, these applications’ fragments have to be allocated in a reasonable way that can reduce the communication cost i.e., to minimize the total volume of data transmitted during operations execution over sites. A strategy of clustering fragments based on hypergraph is proposed, which can cluster fragments which were accessed together in most operations to the same cluster. Themethod uses a weighted hypergraph to represent the fragments’ access pattern of operations. A hypergraph partitioning algorithmis used to cluster fragments in our strategy. This method can reduce the amount of sites that an operation has to span. So it can reduce the communication cost over sites. Experimental results confirm that the proposed technique will effectively contribute in solving fragments re-allocation problem in a specific application environment of NoSQL database system. 相似文献

19.

Application‐driven analysis of two generations of capability computing: the transition to multicore processors

Mahesh Rajan Courtenay T. Vaughan Doug W. Doerfler Richard F. Barrett Paul T. Lin Kevin T. Pedretti K. Scott Hemmert 《Concurrency and Computation》2012,24(18):2404-2420

Multicore processors form the basis of most traditional high performance parallel processing architectures. Early experiences with these computers showed significant performance problems, both with regard to computation and inter‐process communication. The transition from Purple, an IBM POWER5‐based machine, to Cielo, a Cray XE6, as the main capability computing platform for the United States Department of Energy's Advanced Simulation and Computing campaign provides an opportunity to reexamine these issues after experiences with a few generations of multicore‐based machines. Experiences with Purple identified some important characteristics that led to strong performance of complex scientific application programs at very large scales. Herein, we compare the performance of some Advanced Simulation and Computing mission critical applications at capability scale across this transition to multicore processors. Copyright © 2012 John Wiley & Sons, Ltd. 相似文献

20.

一种优化MPI程序性能的改进方法

柯鹏聂鑫《现代计算机》2011,(18):3-6

在分布式存储系统上,MPI已被证实是理想的并行程序设计模型。MPI是基于消息传递的并行编程模型,进程间的通信是通过调用库函数来实现的,因此MPI并行程序中,通信部分代码的效率对该并行程序的性能有直接的影响。通过用集群通信函数替代点对点通信函数以及通过派生数据类型和建立新通信域这两种方式,两次改进DNS的MPI并行程序实现,并通过实验给出一个优化MPI并行程序的一般思路与方法。相似文献