首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
使用GPU加速分子动力学模拟中的非绑定力计算   总被引:1,自引:0,他引:1  
在分子动力学模拟(MD)中,对非绑定力的计算需要花费大量的时间。本文提出了基于CUDA和Brook+的两种双精度算法,分别在NVIDIA和AMD两款主流GPU上实现了非绑定力的计算,借助GPU的计算能力加速了整个MD程序。算法对MD进行了任务分割,采用区域分解的方法将非绑定力的计算映射到GPU的计算核心上,同时针对两款GPU的各自特点提出了线程块内共享存储、最小化数据集两种优化方法。性能测试结果表明,与Intel Xeon 2.6GHzCPU的单核相比,43.2万粒子的高速粒子碰撞模拟,在配置NVIDIA Tesla C1060的系统上性能提高了6.5倍,在配置AMD HD4870的系统上性能提高了4.8倍。  相似文献   

2.
分子动力学模拟作为获得液体、固体性质的重要计算手段,广泛应用于化学、物理、生物、医药、材料等众多领域。模拟体系的复杂性和精确性的需求,使得计算量巨大,耗费时间长。并行计算是加速大规模分子动力学模拟的霍要途径。GPU以几百GFlops甚至上I}Flops的运算能力,为分子动力学模拟等的计算密集型应用提供了新的加速方案。提出了一种基于GPU的分子动力学模拟并行算法—oApT-AD,并在OpenCL和CUDA框架下加以实现。,r}能测试显示,在Tesla C1060显卡上,该算法在OpcnCL框架下的实现相对于CPU的串行实现,最高达到120倍加遥比。通过对比发现,该算法在CUDA上的性能与()pcnCI、基本相当。同时,该算法还可以扩展到两块及以上的GPU上,具有良好的可扩展性。  相似文献   

3.
GROMACS是著名分子动力学模拟软件之一,GPGPU技术能够使用图形处理器完成通用计算,是高性能计算的最新发展趋势.本文通过对Nvidia CUDAGPGPU编程模式以及GROMACS代码的研究分析,论证了将GROMACS移植到以GPGPU为计算核心的平台上的可行性,并通过算法和参数数据组织形式的改造实现了GROMACS中非键力计算函数从x86处理器向GPGPU的移植,获得显著的性能提升,计算加速比达到10倍以上,为GROMACS整体移植的实现奠定了基础.  相似文献   

4.
在集群与GPU组成的异构并行计算平台上,使用MPI+CUDA混合编程模型,实现基于ABEEMσπ模型的分子动力学模拟中电荷分布的计算.通过对电荷分布分布求解中的计算部分移植到GPU上进行,并针对算法中通信开销大和资源未充分利用的问题,通过异构平台的异步并发方法进行优化,提高了求解效率.性能测试结果表明,相比于单纯MPI并行算法,优化后GPU加速的异构并行算法,在化学大分子模型电荷分布计算上,有着明显的性能优势.  相似文献   

5.
针对双向相似性计算在CPU下串行计算效率低下,无法满足实际需求的问题,利用该计算中数据独立性的特点,应用CUDA编程模型实现基于GPU加速的图像双向相似性计算。与CPU相比,在392x300的分辨率实验下,该算法在GPU上可获得超过1200倍的加速比。  相似文献   

6.
GPU上计算流体力学的加速   总被引:1,自引:0,他引:1  
本文将计算流体力学中的可压缩的纳维叶-斯托克斯(Navier-Stokes),不可压缩的Navier-Stokes和欧拉(Euler)方程移植到NVIDIA GPU上.模拟了3个测试例子,2维的黎曼问题,方腔流问题和RAE2822型的机翼绕流.相比于CPU,我们在GPU平台上最高得到了33.2倍的加速比.为了最大程度提...  相似文献   

7.
随着网络不断地社会化、普及化,网络社区的规模也越来越大,这给社会化网络关系的计算带来了巨大的计算量。这些计算包括个人关系及计算与生成、全局关系计算与生成以及关系的挖掘等。虽然这些工作的计算量很大,但却适合并行处理。基于此,本文通过详细分析GPU的高性能运算及其在CUDA编程模型上的具体实现,讨论利用基于CUDA硬件架构的GPU来进行社区用户关系的并行计算。  相似文献   

8.
图形处理器(Graphic Processing Unit),简称GPU,是针对多线程程序对吞吐量进行优化的处理器,在硬件设计上属于众核架构,非常适合于大规模并行计算任务。JPEG图像压缩作为计算密集型的矩阵数据运算,用GPU技术对JPEG算法进行实现,能充分发挥GPU的并行处理能力,极大提高编码效率。  相似文献   

9.
随着高通量生物组学数据生成技术的不断发展,近几年的生命科学研究的研发方法也出现较大的变革。海量的生物数据分析迫切需求现代大数据工具和技术。GPU在浮点运算、并行性以及能耗上与其他技术相比有显著的优势,其作为一种通用计算工具越来越受到重视。GPU很早就被用运用到生物信息学研究中,其加速效率一般能够达到两个数量级以上。文章主要概述GPU在生物信息学多个研究领域中应用,探讨GPU技术所适应的问题模型,并分析了其存在的不足。  相似文献   

10.
分子动力学模拟通常用于晶体硅热力学性质的研究,因原子间采用复杂的多体作用势,分子模拟通常面临较高的计算负载,导致计算的时间和空间尺度受限。图形处理器(GPU)采用并行多线程技术,用于计算密集型处理任务,在分子动力学模拟领域中显示巨大的应用潜力。因此,充分利用GPU硬件架构特性提升固态共价晶体硅分子动力学模拟的时空尺度对晶体硅导热机制的研究具有重要意义。基于固态共价晶体硅分子动力学模拟算法,提出面向GPU计算平台的固定邻居算法设计与优化。利用数据结构、分支结构优化等方法解决分子动力学模拟的固定邻居算法全局访存和分支结构的耗时问题,降低数据访存消耗和分支冲突,通过改变线程并行调度方式,在GPU计算平台上实现高性能并行计算,有效解决计算负载问题。实验结果表明,LAMMPS双精度固态晶体硅分子动力学模拟与双精度固定邻居算法的加速比为11.62,HOOMD-blue双精度固态晶体硅分子动力学模拟与双精度固定邻居算法和单精度固定邻居算法的加速比分别为9.39和12.18。  相似文献   

11.
目的 流血效果是虚拟手术模拟器视觉效果的重要组成部分,血流与固体交互的庞大计算量使取得实时的流血模拟效果具有很大的挑战性。提出一种基于图形处理单元(GPU)加速的虚拟手术流血效果模拟方法。方法 该方法以Müller等人提出的光滑粒子动力学(SPH)作为基础,采用温度项使粒子具有不同速度模拟血流形成的血槽,同时基于构建均匀空间网格的思想,利用通用并行计算架构(CUDA)多线程并行加速技术完成粒子控制方程的求解和血流与固体交互的计算,从而取得实时的效果。结果 实验结果表明,本文方法能够满足虚拟手术中切割表面流血和血液在器官中流动的模拟需求,在粒子个数为9000时仅需20 ms,对比于纯CPU的实现取得20.15倍的加速比,实现了大量粒子下的实时流血模拟。 结论 本文方法具有较好的灵活性和实时性的特点,可以应用于虚拟手术仿真系统之中。  相似文献   

12.
A recent paper [J. Chem. Phys. 132 (2010) 134705] illustrated the potential of the van der Waals density functional (vdW-DF) method [Phys. Rev. Lett. 92 (2004) 246401] for efficient first-principle accounts of structure and cohesion in molecular crystals. Since then, modifications of the original vdW-DF version (identified as vdW-DF1) have been proposed, and there is also a new version called vdW-DF2 [Phys. Rev. B 82 (2010) 081101(R)], within the vdW-DF framework. Here we investigate the performance and nature of the modifications and the new version for the binding of a set of simple molecular crystals: hexamine, dodecahedrane, C60, and graphite. These extended systems provide benchmarks for computational methods dealing with sparse matter. We show that a previously documented enhancement of non-local correlations of vdW-DF1 over an asymptotic atom-based account close to and a few Å beyond binding separation persists in vdW-DF2. The calculation and analysis of the binding in molecular crystals require appropriate computational tools. In this paper, we also present details on our real-space parallel implementation of the vdW-DF correlation and on the method used to generate asymptotic atom-based pair potentials based on vdW-DF.  相似文献   

13.
Several ab initio computational methods for protein structure prediction have been designed using full‐atom models and force field potentials to describe interactions among atoms. Those methods involve the solution of a combinatorial problem with a huge search space. Genetic algorithms (GAs) have shown significant performance increases for such methods. However, even a small protein may require hundreds of thousands of energy function evaluations making GAs suitable only for the prediction of very small proteins. We propose an efficient technique to compute the van der Waals energy (the greatest contributor to protein stability) speeding up the whole GA. First, we developed a Cell‐List Reconstruction procedure that divides the tridimensional space into a cell grid for each new structure that the GA generates. The cells restrict the calculations of van der Waals potentials to ranges in which they are significant, reducing the complexity of such calculations from quadratic to linear. Moreover, the proposal also uses the structure of the cell grid to parallelize the computation of the van der Waals energy, achieving additional speedup. The results have shown a significant reduction in the run time required by a GA. For example, the run time for the prediction of a protein with 147,980 atoms can be reduced from 217 days to 7 h. Copyright © 2012 John Wiley & Sons, Ltd.  相似文献   

14.
近年来,随着统一计算设备构架(CUDA)的出现,高端图形处理器(GPU)在图像处理、计算流体力学等科学计算领域的应用得到了快速发展.属于介观数值方法的格子Boltzmann方法(LBM)是1种新的计算流体力学(CFD)方法,具有算法简单、能处理复杂边界条件、压力能够直接求解等优势,在多相流、湍流、渗流等领域得到了广泛应用.LBM由于具有内在的并行性,特别适合在GPU上计算.采用多松弛时间模型(MRT)的LBM,受松弛因子的影响较小并且数值稳定性较好.本文实现了MRT-LBM在基于CUDA的GPU上的计算,并通过计算流体力学经典算例--二维方腔流来验证计算的正确性.在雷诺数Re=[10,104]之间,计算了多达26种雷诺数的算例,并将Re=102,4×102,103,2×103,5×103,7.5×103算例对应的主涡中心坐标与文献中结果进行了对比.计算结果与文献数值实验符合较好,从而验证了算法实现的正确性,并显示出MRT-LBM具有更优的数值稳定性.本文还分析了在GPU上MRT-LBM的计算性能并与CPU的计算进行了比较,结果表明,GPU可以极大地加快MRT-LBM的计算,NVIDIA Tesla C2050相对于单核Intel Xeon 5430 CPU的加速比约为60倍.  相似文献   

15.
A simple approximation to the reciprocal space part of the force constant calculation for molecular dynamic simulations is examined. The approximation is obtained by an expansion in powers of ion displacements from their equilibrium positions, and results in errors of less than 1% for RMS ion displacements up to 0.1a0, where a0 is the lattice constant, as tested for CaF2. A second, simpler approximation was also examined but found to lack sufficient accuracy.  相似文献   

16.
在多核中央处理器(CPU)—图形处理器(GPU)异构并行体系结构上,采用OpenMP和计算统一设备架构(CUDA)编程实现了基于AMBER力场的蛋白质分子动力学模拟程序。通过合理地将程序划分为CPU单线程、CPU多线程和GPU多线程执行部分,高效地利用了计算机的处理能力。性能测试结果表明,相对于优化后的CPU串行计算,多核CPU-GPU异构并行计算模型有强大的性能优势,特别是将占整个程序执行时间90%的作用力的计算移植到GPU上执行,获得了最高可达12倍的计算加速比。  相似文献   

17.
Microsystem Technologies - In this study, nonlinear dynamic behavior of a capacitive carbon nano-tube switch is investigated considering van der Waals (vdW) force. The carbon nano-tube is...  相似文献   

18.
实时的改进互信息匹配及其GPU实现   总被引:1,自引:1,他引:1       下载免费PDF全文
为提高模板匹配的速度和精度,提出了一种基于GPU实现的改进的实时互信息配准方法。为了算法不至于太复杂而不能在GPU下运行,使GPU临时变量减少到4个,然后利用GPU逐像素计算模板和焊缝图像的互信息。将所提算法应用到焊缝跟踪系统中,通过GPU来执行简化后的互信息计算,实验表明,所提出的算法可以完成每秒约30帧的图像焊缝跟踪。  相似文献   

19.
近年来GPU作为一种具有极强运算能力的多核处理器,得到了快速的发展,成为高性能计算领域的主要发展方向。各种分子动力学模拟的主流软件也纷纷使用GPU技术,其中LAMMPS较早地开发出了通用的并行GPU版本。本文利用nVIDIA公司最新Femi架构的Tesla C2050 GPU搭建了小型的基于LAMMPS的分子动力学模拟GPU并行计算集群,通过氩原子熔化的算例对集群性能进行了测试,测试的内容包括CPU集群、单节点单GPU、单节点多GPU以及多节点GPU集群。比较了各种情况的加速倍数并对造成性能改变的原因进行了讨论,分析了用于MD模拟的GPU并行计算集群性能的瓶颈所在,提出可能的解决方法,搭建集群时,充分考虑PCI总线的承受能力,对于集群效率的提高有很大好处。测试结果表明,集群的性能较高,相对于以往的单机以及CPU集群,计算的规模大大提高了,加速比也在20倍以上。可以预测,在未来一段时间内,多GPU并行是分子动力学模拟的发展方向。  相似文献   

20.
在研究透镜成像模型与针孔成像模型的基础上 ,在计算机三维场景成像中实时地模拟出景深效果。算法利用了 MRT( multiple render targets)技术及 GPU的可编程性 ,在渲染时将场景存为纹理 ,并输出了像素的深度值和模糊因子 ,利用模糊因子计算每像素模糊圈大小并对图像进行滤波 ,最终在模糊圈内对清晰图像和模糊图像进行融合 ,模拟出景深效果。以一个场景的景深模拟为例 ,展示了不同聚焦时的景深效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号