期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张宝花徐顺《计算机系统应用》2016,25(12):16-23

分子动力学模拟是对微观分子原子体系在时间与空间上的运动模拟,是从微观本质上认识体系宏观性质的有力方法.针对如何提升分子动力学并行模拟性能的问题,本文以著名软件GROMACS为例,分析其在分子动力学模拟并行计算方面的实现策略,结合分子动力学模拟关键原理与测试实例,提出MPI+OpenMP并行环境下计算性能的优化策略,为并行计算环境下实现分子动力学模拟的最优化计算性能提供理论和实践参考.对GPU异构并行环境下如何进行MPI、OpenMP、GPU搭配选择以达到性能最优,本文亦给出了一定的理论和实例参考. 相似文献

2.

GROMACS 2020在ROCm平台上的移植与优化

张驭洲曹武迪卜景德谭光明吉青《计算机工程与科学》2021,43(11):1901-1909

GROMACS是应用广泛的开源分子动力学模拟软件,当前主要通过CUDA使用NVIDIA GPU进行加速计算。ROCm是一个开源的高性能异构计算平台。基于ROCm平台的HIP编程语言,首次实现了GROMACS 2020系列在ROCm平台上的完整移植。在MI50 GPU上,以一个复杂离子液体模拟算例为目标,使用GPU性能分析工具rocprof对移植代码进行了性能分析。针对MI50硬件特性,先后对成键力核函数、静电力的PME核函数和短程非成键力核函数进行了优化,优化后运行目标算例的性能相比初始版本整体上获得了约2.8倍的加速比,在 MI50上的性能高于GROMACS原版OpenCL代码60.5%,相对纯CPU版本有约2.7倍的加速比。在另外2个具有代表性算例的单结点测试以及离子液体算例的多结点扩展性测试中,优化后的代码也达到了较好的性能提升,这表明所采用的优化操作具有一定的通用性。相似文献

3.

分子动力学模拟中基于GPU的范德华非键作用计算 总被引：1，自引：1，他引：0

刘文志李晓霞余翔杨小震郭力《计算机与应用化学》2010,27(12)

GPU最初是专为图形渲染而设计的.近年来已经演化为高并行度、多线程、具有强大计算能力和极高存储器带宽的通用多核处理器,目前主流GPLJ的峰值计算能力通常可达CPU的数10倍.这提供了1种解决大计算量难题的新的可能.分子动力学模拟需要极强的计算能力.故使用GPU来进行分子动力学模拟的尝试是很自然的选择.本文基于NVIDIA的GeForceGTX295 GPU和CUDA2.3开发环境实现了范德华力计算、范德华势能计算和基于网格的邻居搜索.在邻居搜索算法实现中,对于不同计算能力的GPU给出了不同的实现策略.对36万粒子规模的高分子聚乙烯体系算例的测试表明:1个时间步的计算结果与计算性能突出的分子动力学软件GROMACS相应的计算结果一致(运行在工作站Intel Xeon E 5405上),相对于CPU单核计算性能有大幅提高,其中邻居搜索加速了17倍,范德华力计算加速了47倍;并且解决了邻居搜索时的边界问题.虽然本文是针对范德华力的计算,但是策略是通用的,其他方向的研究人员也可以参考.测试结果表明,使用 GPU来加速较大规模计算量的计算是可取的. 相似文献

4.

基于GPGPU的数字图像并行化预处理 总被引：2，自引：0，他引：2

宋晓丽王庆《计算机测量与控制》2009,17(6):1169-1171

首先简要介绍了统一设备架构CUDA(Compute Unified Device Architecture)技术的背景、特点、内存模型,利用通用计算图形处理单元GPGPU(General Purpose GPU)及CUDA技术,实现了图像直方图均衡化和薄云去除的并行化处理,与传统的基于CPU的方法相比,两个基于GPGPU的图像预处理操作的执行效率分别提高了40倍与80倍左右,在大规模实时性图像处理操作中,有很大的实用价值。相似文献

5.

GPGPU编程技术初探

林茂董玉敏邹杰杨敏张晋楠《电脑编程技巧与维护》2010,(2):15-17,23

伴随着GPGPU计算技术的不断发展,HPC高性能计算系统体系结构正在悄然发生着一场变革,这场变革为高性能计算发展提供了一个新的方向、CUDA是NIVIDIA公司提供的利用GPGPU进行并行运算应用开发的一套C语言编程平台,通过它可以利用特定显卡的高性能运算能力进行一些大规模高性能计算,有效提升计算机系统的使用效率,本文主要介绍GPU发展现状以及如何利用CUDA编程技术进行并行运算软件开发．相似文献

6.

使用GPU加速分子动力学模拟中的非绑定力计算 总被引：1，自引：0，他引：1

吴强杨灿群葛振陈娟《计算机工程与科学》2009,31(Z1)

在分子动力学模拟(MD)中,对非绑定力的计算需要花费大量的时间。本文提出了基于CUDA和Brook+的两种双精度算法,分别在NVIDIA和AMD两款主流GPU上实现了非绑定力的计算,借助GPU的计算能力加速了整个MD程序。算法对MD进行了任务分割,采用区域分解的方法将非绑定力的计算映射到GPU的计算核心上,同时针对两款GPU的各自特点提出了线程块内共享存储、最小化数据集两种优化方法。性能测试结果表明,与Intel Xeon 2.6GHzCPU的单核相比,43.2万粒子的高速粒子碰撞模拟,在配置NVIDIA Tesla C1060的系统上性能提高了6.5倍,在配置AMD HD4870的系统上性能提高了4.8倍。相似文献

7.

基于GPU的分子动力学模拟并行化及实现

费辉张云泉王可许亚武《计算机科学》2011,38(9):276-278

分子动力学模拟作为获得液体、固体性质的重要计算手段,广泛应用于化学、物理、生物、医药、材料等众多领域。模拟体系的复杂性和精确性的需求,使得计算量巨大,耗费时间长。并行计算是加速大规模分子动力学模拟的霍要途径。GPU以几百GFlops甚至上I}Flops的运算能力,为分子动力学模拟等的计算密集型应用提供了新的加速方案。提出了一种基于GPU的分子动力学模拟并行算法—oApT-AD,并在OpenCL和CUDA框架下加以实现。,r}能测试显示,在Tesla C1060显卡上,该算法在OpcnCL框架下的实现相对于CPU的串行实现,最高达到120倍加遥比。通过对比发现,该算法在CUDA上的性能与()pcnCI、基本相当。同时,该算法还可以扩展到两块及以上的GPU上,具有良好的可扩展性。相似文献

8.

nPME对GROMACS软件并行计算性能的影响分析

寇大治左光宏《计算机应用与软件》2014,(10)

在分子动力学并行计算的过程中,正确地处理好并行规模与PME(Particle-Mesh Ewald)方法的任务分配,对于提高分子动力学的并行效率具有非常重要的影响。以常用的分子动力学软件Gromacs[1-3]为例,利用上海超级计算中心"魔方"超级计算平台,就不同并行规模与不同PME任务分配方式下的计算性能进行测试。发现并行能在一定的范围内显著的提高Gromacs的计算效率,但是当并行规模超过一定值后,计算效率反而下降。另一方面,当并行规模较小时,不设置PME专属节点的计算效率较高;但当并行规模较大时,合理的设置PME专属节点,能显著地提高计算的效率。这一结果能对从事分子动力学模拟的研究人员合理分配并行资源提供帮助。相似文献

9.

GPGPU技术研究与发展

林一松唐玉华唐滔《计算机工程与科学》2011,33(10):85

半导体工艺的发展使得芯片上集成的晶体管数目不断增加,图形处理器的存储和计算能力也越来越强大。目前,GPU的峰值运算能力已经远远超出主流的CPU,它在非图形计算领域,特别是高性能计算领域的潜力已经引起越来越多研究者的关注。本文介绍了GPU用于通用计算的原理以及目前学术界和产业界关于GPGPU体系结构和编程模型方面的最新研究成果。相似文献

10.

利用GPGPU进行快速稀疏磁共振数据重建

下载免费PDF全文

王聪冯衍秋《计算机工程与应用》2011,47(17):203-206

利用GPGPU（General Purpose GPU）强大的并行处理能力,基于NVIDIA CUDA框架对已有的稀疏磁共振（Sparse MRI）重建算法进行了并行化改造,使其能够适应实际应用的要求。稀疏磁共振成像的重建算法包含大量的浮点运算,计算耗时严重,难以应用于实际,必须对其进行加速和优化。实验结果显示,NVIDIA GTX275 GPU使运算时间从4分多钟缩短到3.4秒左右,与Intel Q8200 CPU相比,达到了76倍的加速。相似文献

11.

Workflow of the Grover algorithm simulation incorporating CUDA and GPGPU

Xiangwen Lu Jiabin YuanWeiwei Zhang 《Computer Physics Communications》2013

The Grover quantum search algorithm, one of only a few representative quantum algorithms, can speed up many classical algorithms that use search heuristics. No true quantum computer has yet been developed. For the present, simulation is one effective means of verifying the search algorithm. In this work, we focus on the simulation workflow using a compute unified device architecture (CUDA). Two simulation workflow schemes are proposed. These schemes combine the characteristics of the Grover algorithm and the parallelism of general-purpose computing on graphics processing units (GPGPU). We also analyzed the optimization of memory space and memory access from this perspective. We implemented four programs on CUDA to evaluate the performance of schemes and optimization. Through experimentation, we analyzed the organization of threads suited to Grover algorithm simulations, compared the storage costs of the four programs, and validated the effectiveness of optimization. Experimental results also showed that the distinguished program on CUDA outperformed the serial program of libquantum on a CPU with a speedup of up to 23 times (12 times on average), depending on the scale of the simulation. 相似文献

12.

基于CUDA平台的海洋表面模拟

易松刘福岩李雪敏王威陈业成《计算机工程与设计》2011,32(3):998-1001

针对目前许多基于物理的流体模拟方法的缺点,如计算数据量大,实时性差等,提出了一种新的基于统一计算设备架构平台的实时海洋表面模拟方法。采取快速傅立叶变换与统计模型的方法获取海洋表面的高度场数据,充分利用CUDA编程模型的并行性加速建模过程,海洋表面真实感光照渲染主要通过对周围景物的反射投影与折射效果及近似菲涅尔系数进行模拟。实验结果表明,采用CUDA加速的模拟过程明显提高了效率,适合虚拟现实与游戏中的实时模拟。相似文献

13.

基于CUDA粒子系统的烟花仿真

陈修亮梁英杰郭福亮《计算机应用》2013,33(7):2059-2062

粒子系统的基本理论符合自然世界的客观规律,适用于烟花等复杂现象的仿真。针对粒子系统仿真存在的计算和内存资源消耗巨大等问题,建立了基于统一计算设备架构(CUDA)框架的粒子系统基本模型,讨论了模型中粒子的存储与运动更新,研究了基于CUDA的并行KD-TRIE邻近粒子搜索算法。运用建立的CUDA粒子系统,研究了烟花仿真的具体实现。仿真结果表明,系统能够较逼真地仿真烟花的上升与绽放过程,帧率高达每秒312帧,仿真的真实感和实时性得到增强。相似文献

14.

基于CUDA架构矩阵乘法的研究

马梦琦刘羽曾胜田《微型机与应用》2011,30(24):62-64,68

首先介绍了CUDA架构特点,在GPU上基于CUDA使用两种方法实现了矩阵乘法,并根据CUDA特有的软硬件架构对矩阵乘法进行了优化。然后计算GPU峰值比并进行了分析。实验结果表明,基于CUDA的矩阵乘法相对于CPU矩阵乘法获得了很高的加速比,最高加速比达到1079.64。GPU浮点运算能力得到有效利用,峰值比最高达到30.85%。相似文献

15.

Real-time parallel image processing applications on multicore CPUs with OpenMP and GPGPU with CUDA

Semra Aydin Refik Samet Omer Faruk Bay 《The Journal of supercomputing》2018,74(6):2255-2275

This paper presents real-time image processing applications using multicore and multiprocessing technologies. To this end, parallel image segmentation was performed on many images covering the entire surface of the same metallic and cylindrical moving objects. Experimental results on multicore CPU with OpenMP platform showed that by increasing the chunk size, the execution time decreases approximately four times in comparison with serial computing. The same experiments were implemented on GPGPU using four techniques: (1) Single image transmission with single pixel processing; (2) Single image transmission with multiple pixel processing; (3) Multiple image transmission with single pixel processing; and (4) Multiple image transmission with multiple pixel processing. All techniques were implemented on GeForce, Tesla K20 and Tesla K40. Experimental results of GPU with CUDA platform showed that by increasing the core number speedup is increased. Tesla K40 gave the best results of 35 and 12 (for the first technique), 36 and 13 (for the second technique), 54 and 16 (for the third technique), 71 and 17 (for the fourth technique) times improvement without and with data transmission time in comparison with serial computing. As a result, users are suggested to use Tesla K40 GPU and Multiple image transmission with multiple pixel processing to get the maximum performance. 相似文献

16.

基于LPC2210的U-Boot移植

李彦中张曦煌李岩《计算机工程与设计》2008,29(2):274-276,286

嵌入式系统由于其自身的特点,一般没有通用的Bootloader.而U-Boot是一款功能强大的Bootloader软件,它可以支持很多架构的CPU,但是U-Boot相对的也会比较复杂.通过对U-Boot的目录结构以及运行机制的详细分析,在此基础上结合飞利浦LPC2210微控制的硬件架构特点,对U.Boot进行移植.对移植成功的U-Boot代码进行测试分析表明,该移植是成功的,能够为使用LPC2000系列CPU进行嵌入式系统开放的人员提供一些参考. 相似文献

17.

Issues in porting software from c to c++

Reza Hashemi Ronald J. Leach 《Software》1992,22(7):599-602

This paper describes an experiment in the development of a small piece of software in both the languages C and C++ in a university setting. The C++ codes were found to be more modular than the corresponding C codes. Some of the other effects of C++ on program quality are very briefly discussed. The paper also discusses some of the errors that C programmers may make as novice C++ programmers, and the testing of object-oriented programs. Some of the error types possible in C++, but not in C, include delays in the flushing of output buffers and polymorphism. 相似文献

18.

Research on GPGPU performance models

WANG Feng DU Yun fei CHEN Juan 《计算机工程与科学》2013,35(12):1

相似文献

19.

基于ADS2的嵌入式软件测试仿真建模方法研究

张海军王艳军刘海见张凯翊《电子技术应用》2014,(6)

嵌入式软件通常运行于特定的物理环境中,外部设备接口种类多,功能差异大,实时性强,在进行测试时需要花费大量人力、物力来构建测试环境。针对这一问题,采用半实物仿真技术,利用ADS2测试工具对外部设备进行仿真建模,构建一个逼真的模拟环境来进行嵌入式软件测试。ADS2能够满足嵌入式软件仿真测试的通用化和实时性要求,可以有效支持数据源、交联设备等多种仿真模型的设计开发。测试实例表明,利用ADS2进行嵌入式软件半实物仿真测试,能够加快测试环境构建过程,降低测试成本,拓宽测试范围,提高嵌入式软件测试的质量和效率。相似文献

20.

GPGPU test suite minimisation: search based software engineering performance improvement using graphics cards

Shin Yoo Mark Harman Shmuel Ur 《Empirical Software Engineering》2013,18(3):550-593

It has often been claimed that SBSE uses so-called ‘embarrassingly parallel’ algorithms that will imbue SBSE applications with easy routes to dramatic performance improvements. However, despite recent advances in multicore computation, this claim remains largely theoretical; there are few reports of performance improvements using multicore SBSE. This paper shows how inexpensive General Purpose computing on Graphical Processing Units (GPGPU) can be used to massively parallelise suitably adapted SBSE algorithms, thereby making progress towards cheap, easy and useful SBSE parallelism. The paper presents results for three different algorithms: NSGA2, SPEA2, and the Two Archive Evolutionary Algorithm, all three of which are adapted for multi-objective regression test selection and minimization. The results show that all three algorithms achieved performance improvements up to 25 times, using widely available standard GPUs. We also found that the speed-up was observed to be statistically strongly correlated to the size of the problem instance; as the problem gets harder the performance improvements also get better. 相似文献