首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 640 毫秒
1.
格点量子色动力学(格点QCD)是研究夸克、胶子等微观粒子间相互作用的重要理论和方法. 通过将时空离散化为四维结构网格, 并将量子色动力学的基本场量定义在网格上, 让研究人员可以使用数值模拟方法, 从第一性原理出发研究强子间相互作用和性质, 但这个过程中的计算量极大, 需要进行大规模并行计算. 格点QCD计算的核心基础为格点QCD求解器, 是程序运行主要的计算热点模块. 本文研究在国产异构计算平台下格点QCD求解器的实现与优化, 提出一套格点QCD求解器的设计实现, 实现了BiCGSTAB求解器, 显著降低了迭代次数; 通过对奇偶预处理技术, 降低了所求问题的计算规模; 针对国产异构加速卡的特点, 优化了Dslash模块的访存操作. 实验测试表明, 相比优化前的求解器获得了约30倍的加速比, 为国产异构超算下格点QCD软件性能优化提供了有益的参考价值.  相似文献   

2.
格点量子色动力学(Lattice Quantum Chromo Dynamics,LQCD)是目前已知能系统研究夸克及胶子间低能强相互作用的非微扰计算方法.计算结果的统计和系统误差原则上都是可控的,并能逐步减少.基于格点QCD的基本原理,更大的格子体积意味着可以计算更大空间的物理过程,并且可以对空间进行更加精细的划分,从而得到更加精确的结果.因而大体系的格点计算对QCD理论研究有着重要意义,但对程序计算性能提出了更高要求.本文针对格点QCD组态生成和胶球测量的基本程序,进行了其大规模并行分析和性能优化的研究.基于格点QCD模拟采用的blocking和even-odd算法,我们设计了基于MPI和OpenMP的并行化算法,同时设计优化数据通信模块:针对复矩阵的矩阵乘等数值计算,提出了向量化的计算优化方法:针对组态文件输出瓶颈,提出了并行输出组态文件的实施方法.模拟程序分别在Intel KNL和“天河2号”超级计算机x86_64队列进行了测试分析,证实了相应的优化措施的有效性,并进行了相应的并行计算效率分析,最大测试规模达到了1728个节点(即41472 CPU核).  相似文献   

3.
格点量子色动力学(格点QCD)是高能物理领域中需要大规模并行计算的最主要应用之一,相关研究通常需要消耗大量计算资源,核心是求解大规模稀疏线性方程组。文中基于国产鲲鹏920 ARM处理器,研究了格点QCD的计算热点Dslash,并将其扩展到64个节点(6 144核),展示了格点QCD计算的线性扩展性。基于roofline性能分析模型,发现格点QCD是典型的内存限制应用,并通过将Dslash中的3×3复幺正矩阵根据对称性压缩,将其性能提升约22%。对于大规模稀疏线性方程的求解,在ARM处理器上探索了常用的Krylov子空间迭代算法BiCGStab,以及近年来发展起来的前沿的multigrid算法,发现即使考虑预处理时间,在实际物理计算中使用multigrid算法相比BiCGStab依然有几倍至一个数量级的加速。此外,还考虑了鲲鹏920处理器上的NEON向量化指令,发现将其用于multigrid计算时可以带来约20%的加速。因此,在ARM处理器上使用multigrid算法能极大地加速实际的物理研究。  相似文献   

4.
基于量子化学的蛋白质分子场计算   总被引:1,自引:1,他引:0  
蛋白质结构与功能之间的关系非常密切,蛋白质分子体系中的各种相互作用力在空间叠加形成一个综合性作用(分子场),对揭示蛋白质结构与功能之间的内在关系具有重要意义.提出了基于线性标度量子化学理论的蛋白质分子场快速计算方法,利用分而治之的思想,根据氨基酸残基把一个蛋白质大分子分解成若干片段,然后对每个片段单独计算,最后对各片段的重要区域在空间网格点上进行拼接,获得完整的三维分子场数据;为了提高计算速度,还提出了基于MPICH模型的并行计算方法.实验结果证明,文中方法能实现复杂蛋白质分子的分子场的高效、高精度计算.  相似文献   

5.
研发适应国产异构计算环境的高性能计算算法与软件是非常重要的课题,对我国高性能计算软件研发匹配高性能计算硬件高水平发展的速度具有重要意义.本文首先简要介绍高性能计算应用软件的现状、趋势和面临挑战,并对几类典型高性能计算应用软件开展并行计算算法特征分析,涵盖了宇宙N体模拟、地球系统模式、计算材料相场动力学、分子动力学、量子计算化学和格点量子色力学等多个问题、尺度和领域.其次,我们讨论了面向国产异构计算系统的对策,提炼出若干典型应用算法和软件的共性问题,涉及核心算法、算法发展、优化策略等.最后,本文面向异构计算体系结构对高性能计算算法与软件进行了总结.  相似文献   

6.
徐顺  王武  张鉴  姜金荣  金钟  迟学斌 《软件学报》2021,32(8):2365-2376
研发适应国产异构计算环境的高性能计算算法与软件是非常重要的课题,对我国高性能计算软件研发匹配高性能计算硬件高水平发展的速度具有重要意义.首先,简要介绍高性能计算应用软件的现状、趋势和面临挑战,并对几类典型高性能计算应用软件开展并行计算算法特征分析,涵盖了宇宙N体模拟、地球系统模式、计算材料相场动力学、分子动力学、量子计算化学和格点量子色力学等多个问题、尺度和领域.其次,讨论了面向国产异构计算系统的对策,提炼出若干典型应用算法和软件的共性问题,涉及核心算法、算法发展、优化策略等.最后,面向异构计算体系结构,对高性能计算算法与软件进行了总结.  相似文献   

7.
基于MPI的FDTD并行算法及其优化策略   总被引:1,自引:1,他引:0  
由高性能PC机通过网络互联构成的集群(COW)并行计算系统上应用基于消息传递(Message Passing)的方式实现FDTD的并行算法,获得了足够的加速比,有效地解决了传统的FDTD方法计算电大尺寸目标电磁散射问题时的不足.通过区域分割,各个子区域在边界处与其相邻的子区域进行场值的数据传递,从而实现了FDTD算法的并行化.利用并行FDTD方法研究了电磁波的介质层的散射,结果表明并行算法和串行计算结果的一致性,并有效提高计算效率.最后还给出了对算法进行通信隐藏的优化方法,进一步提高了并行计算的效率.  相似文献   

8.
谱聚类算法是建立在谱图理论上的一种点对聚类算法,具有实现简单、理论基础扎实和适应任意数据空间的优点,因而成为机器学习领域的研究热点.谱聚类算法最大的问题在于计算复杂度过高,而并行计算可以提高解题效率,因此本文采用最为流行的并行计算框架MAP/REDUCE在Hadoop环境中实现了并行谱聚类算法,大大改善了谱聚类算法在大规模数据环境中的聚类效率问题.  相似文献   

9.
通过获得的计算机CPU个数对要形成的网格场进行子区域划分,对各子区域用反距离加权插值法,双线形插值方法将离散气象数据格点化后形成网格数据场,对各子区域进行OPENMP的并行算法处理形成等值线填色场。实验结果表明,并行计算使系统的处理速度有较大提高。  相似文献   

10.
为应对海量遥感影像快速计算的需求,通过对影像获取、算法和计算过程优化和改进,提出了一种基于Apache Spark并行计算框架的MODIS海表温度反演方法,实现了海量MODIS遥感影像的海表温度快速反演.应用四轮网络查询请求获取特定的时空范围影像数据,提高影像获取阶段的效率;应用简化算法参数、拟合过程变量改进海表温度劈窗算法,使之适合快速并行计算;应用弹性分布式数据集(RDD)窄依赖关系的优点,避免并行计算中的数据交换延迟.通过单机模式与集群模式对比实验,发现集成了并行计算框架的集群模式影像处理效率约为单机模式的10倍.研究结果表明了融合集群计算技术的海表温度反演过程有效提高了传统单机应用程序的处理效率.  相似文献   

11.
在计算流体力学领域中,由于流场求解的复杂性,设计出高效的并行算法成为了流场并行化计算的研究重点.以格子Boltzmann方法的理论应用为研究背景,把并行思想和格子Boltzmann方法在模拟流体流动中的计算问题结合起来,讨论了格子Boitzmann方法LBGK D2Q9模型的计算过程和计算特点.研究并实现了LBGK模型的分布式并行算法,并在自强3000上进行了算法的并行性能的分析和测试.结果表明,格子Boltzmann方法LBGKD2Q9模型适合大规模的并行计算,能提高计算的精度和速度,解决复杂流场计算问题.  相似文献   

12.
We describe how we have used simultaneously O(103) nodes of the EGEE Grid, accumulating ca. 300 CPU-years in 2-3 months, to determine an important property of Quantum Chromodynamics. We explain how Grid resources were exploited efficiently and with ease, using user-level overlay based on Ganga and DIANE tools above standard Grid software stack. Application-specific scheduling and resource selection based on simple but powerful heuristics allowed to improve efficiency of the processing to obtain desired scientific results by a specified deadline. This is also a demonstration of combined use of supercomputers, to calculate the initial state of the QCD system, and Grids, to perform the subsequent massively distributed simulations. The QCD simulation was performed on a 163×4 lattice. Keeping the strange quark mass at its physical value, we reduced the masses of the up and down quarks until, under an increase of temperature, the system underwent a second-order phase transition to a quark-gluon plasma. Then we measured the response of this system to an increase in the quark density. We find that the transition is smoothened rather than sharpened. If confirmed on a finer lattice, this finding makes it unlikely for ongoing experimental searches to find a QCD critical point at small chemical potential.  相似文献   

13.
并行计算软件库,如scalapack和plapack,通过提供大量并行计算子过程来提高并行计算软件开发效率。为方便用户使用并行软件库,该文提出了一种基于性能预测技术来开发并行计算软件库的方法,这是一种隐藏并行计算细节的有效途径。并就构成该软件库的神威超级计算机系统并行软件开发工具,并行线性代数软件库的数据自动分布的方法和供用户调用并行软件库的接口设计技术进行了讨论。实验结果表明,这种技术能有效提高并行计算软件效率。  相似文献   

14.
格子玻尔兹曼方法(Lattice Boltzmann Method,LBM)是一种基于介观模拟尺度的计算流体力学方法,已被广泛用于理论研究和工程领域。提高LBM计算流体软件的并行模拟能力,是高性能计算及应用研究中的一项重要内容。该研究基于“神威·太湖之光”超级计算系统,设计并实现了一套高效扩展的LBM计算流体力学软件。针对国产众核处理器SW26010的架构,文中设计了以下几种提高SWLBM方针速度和可扩展性的多级并行技术,包括面向19点stencil的数据复用、碰撞过程向量化、主从异步并行通信计算隐藏等。基于以上并行优化方案,文中测试了高达56000亿网格的数值模拟,SWLBM软件持续浮点计算性能达到4.7 PFlops,软件模拟速度提高了172倍。相比百万核心10000*10000*5000网格风场模拟,SWLBM整机千万核心的并行效率可达87%。测试结果表明,SWLBM有能力为工业应用提供实用的大规模并行模拟解决方案。  相似文献   

15.
水声传播数值计算的效率是各类水声学应用关心的核心因素之一,谱方法作为求解微分方程的一种数值方法,具有精度高、收敛速度快等优点,因此,近年来利用简正波-谱方法求解水声传播方程引起了许多学者的关注;然而,谱方法计算量更大,计算时间更长,在求解大范围海域声传播问题时,难以满足实时性的需求.因此,需要借助现代高性能计算机系统,...  相似文献   

16.
网格环境下的集群系统作业管理研究   总被引:2,自引:4,他引:2  
网格计算已经逐渐形成一个重要的新领域。相对于传统的分布式计算,它的显著之处在于它能够共享网络上的各种资源,包括地理上分布的各种计算资源。PBS是广泛应用于并行计算机的作业管理系统,它可以按照用户定义的配置参数相对公平地为每个作业分配系统资源。但是在网格环境范围内对集群系统进行管理仍然是一门有待研究的课题。利用网格系统软件和集群系统管理软件,实现了一种在网格环境下对集群系统作业进行管理的方法。  相似文献   

17.
Due to the intrinsic nature of multi-physics, it is prohibitively complex to design and implement a simulation software platform for study of structural responses to a detonation shock. In this article, a partitioned fluid-structure interaction computing platform is designed for parallel simulating structural responses to a detonation shock. The detonation and wave propagation are modeled in an open-source multi-component solver based on OpenFOAM and blastFoam, and the structural responses are simulated through the finite element library deal.II. To capture the interaction dynamics between the fluid and the structure, both solvers are adapted to preCICE. For improving the parallel performance of the computing platform, the inter-solver data is exchanged by peer-to-peer communications and the intermediate server in conventional multi-physics software is eliminated. Furthermore, the coupled solver with detonation support has been deployed on a computing cluster after considering the distributed data storage and load-balancing between solvers. The 3D numerical result of structural responses to a detonation shock is presented and analyzed. On 256 processor cores, the speedup ratio of the simulations for a detonation shock reach 178.0 with 5.1 million of mesh cells and the parallel efficiency achieve 69.5%. The results demonstrate good potential of massively parallel simulations. Overall, a general-purpose fluid-structure interaction software platform with detonation support is proposed by integrating open source codes. And this work has important practical significance for engineering application in fields of construction blasting, mining, and so forth.  相似文献   

18.
Data Grid has evolved to be the solution for data-intensive applications, such as High Energy Physics (HEP), astrophysics, and computational genomics. These applications usually have large input of data to be analyzed and these input data are widely replicated across Data Grid to improve the performance. The job scheduling performance on traditional computing jobs can be studied using queuing theory. However, with the addition of data transfer, the job scheduling performance is too complex to be modeled. In this research, we study the impact of data transfer on the performance of job scheduling in the Data Grid environment. We have proposed a parallel downloading system that supports replicating data fragments and parallel downloading of replicated data fragments, to improve the job scheduling performance. The performance of the parallel downloading system is compared with non-parallel downloading system, using three scheduling heuristics: Shortest Turnaround Time (STT), Least Relative Load (LRL) and Data Present (DP). Our simulation results show that the proposed parallel download approach greatly improves the Data Grid performance for all three scheduling algorithms, in terms of the geometric mean of job turnaround time. The advantage of parallel downloading system is most evident when the Data Grid has relatively low network bandwidth and relatively high computing power.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号