期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张繁王章野姚建吴韬彭群生《计算机辅助设计与图形学学报》2010,22(3)

针对生物化学计算中采用量子化学理论计算蛋白质分子场所带来的巨大计算量的问题,搭建起一个GPU集群系统,用来加速计算基于量子化学的蛋白质分子场.该系统采用消息传递并行编程环境(MPI)连接集群各结点,以开放多线程OpenMP编程标准作为多核CPU编程环境,以CUDA语言作为GPU编程环境,提出并实现了集群系统结点中GPU和多核CPU协同计算的并行加速架构优化设计.在保持较高计算精度的前提下,结合MPI,OpenMP和CUDA混合编程模式,大大提高了系统的计算性能,并对不同体系和规模的蛋白质分子场模拟进行了计算分析.与相应的CPU集群、GPU单机和CPU单机计算方法对比,该GPU集群大幅度地提高了高分辨率复杂蛋白质分子场模拟的计算效率,比CPU集群的平均计算加速比提高了7.5倍. 相似文献

2.

基于CPU/GPU异构系统架构的高超声速湍流直接数值模拟研究

党冠麟刘世伟胡晓东张鉴李新亮《数据与计算发展前沿》2020,2(1):105-116

【目的】高超声速湍流直接数值模拟(DNS)对空间及时间分辨率要求高,计算量非常大。过大的计算量及过长的计算时间是导致DNS难以在工程中被大范围应用的重要原因。为加快计算速度,作者设计并开发了一套CPU/GPU异构系统架构(HSA)下的高性能计算流体力学程序OpenCFD-SCU。【方法】该程序以作者前期开发的高精度有限差分求解器OpenCFD-SC为基础,经GPU系统的移植及优化而得。GPU程序的计算部分使用CUDA编程,确保所有算术运算都在GPU上完成。【结果】利用GPU程序OpenCFD-SCU,进行了来流Mach数6,6°攻角钝锥边界层转捩的直接数值模拟,得到了转捩过程中的时空演化流场。针对这一算例,GPU程序OpenCFD-SCU与CPU程序OpenCFD-SC相比,实现了60倍的加速效果(单GPU卡对单CPU核心),大大加速了DNS计算过程。【结论】未来,相信会有更多高超声速湍流模拟选择在GPU上开展。相似文献

3.

MD模拟GPU并行计算现状研究

《计算机与应用化学》2017,(5)

作为高性能科学计算的典型应用,利用GPU并行加速分子动力学模拟是2007年以来计算化学领域高性能计算的热点。本文概述了支持GPU加速的不同MD软件的特点和其研究进展,重点分析了Amber、GROMACS、ACEMD三个代表性软件的单GPU卡和多GPU卡计算性能,结果表明在配置相同数目GPU卡的情况下,单节点比多节点在计算性能上较有优势,桌面工作站配多块GPU卡是性价比相对较好的MD模拟计算模式。本文还考察了单精度和双精度GPU加速MD的模拟计算结果的准确性,与CPU的计算结果进行了比较,结果表明,GPU的计算结果总体而言是可信的。最后,本文对GPU并行加速MD模拟的研究现状进行总结并对未来发展做了展望。相似文献

4.

基于GPU的LARED-P算法加速

下载免费PDF全文

刘来国徐炜遐杨灿群陈娟《计算机工程与科学》2009,31(Z1)

GPU拥有几百GFlops甚至上TFlops的浮点计算能力,将GPU应用于粒子模拟,可有效提高大规模粒子模拟的速度,降低计算成本。本文利用GPU加速三维激光等离子体模拟算法LARED-P,提出了基于CPU+GPU的任务划分、GPU上任务分解、大规模计算核心的分解方法,结合使用了寄存器、纹理内存对算法进行加速。在双精度条件下,移植后的算法在工作频率为1.44GHz的NVIDIA Tesla S1070的单个GPU上获得了相当于主频2.4GHz的Intel(R)Core(TM)2 Quad CPU Q6600单核的6倍加速比。相似文献

5.

Particle-Mesh-Ewald(PME)算法在GPU上的实现

石静李晓霞刘忠亮刘文志郭力《计算机与应用化学》2012,29(5):517-522

分子动力学模拟(MD)是分子模拟的一类常用方法,为生物体系的模拟提供了重要途径。由于计算强度大,目前MD可模拟的时空尺度还不能满足真实物理过程的需要。作为CPU的加速设备,近年来,GPU为提高MD计算能力提供了新的可能。GPU编程难点主要在于如何将计算任务分解并映射到GPU端并合理组织线程及存储器,细致地平衡数据传输和指令吞吐量以发挥GPU的最大计算性能。静电效应是长程作用,广泛存在于生物现象的各个方面,对其精确模拟是MD的重要组成部分。Particle-Mesh-Ewald(PME)方法是公认的精确处理静电作用的算法之一。本文介绍在本实验室已建立的GPU加速分子动力学模拟程序GMD的基础上,基于NVIDIACUDA,采用GPU实现PME算法的策略,针对算法中组成静电作用的三个部分即实空间、傅立叶空间和能量修正项,分别采用不同的计算任务组织策略以提升整体性能。使用事实上的标准算例dhfr进行的测试结果表明,实现PME的GMD程序,性能分别是Gromacs4.5.3版单核CPU的3.93倍,8核CPU的1.5倍,基于OpenMM2.0加速的Gromacs4.5.3GPU版本的1.87倍。相似文献

6.

基于GPU的图形学加速算法在离散元法中的应用

《计算机应用与软件》2016,(6)

颗粒离散元法是一种广泛应用于研究颗粒物料力学行为的数值模拟方法,而计算效率是制约其发展和应用的主要因素之一。通过Pro/E软件建立了料斗模型,利用Stream DEM软件对料斗的颗粒充填过程进行离散元法模拟研究,并对基于CPU和GPU加速算法的运算过程和结果进行对比。结果表明,基于GPU的计算机图形学加速算法可大幅提高颗粒离散元法模拟过程的运算效率。当填充颗粒数量达到13万时,其运算效率比基于CPU的运算效率提高了10倍以上。相似文献

7.

层流扩散燃烧在GPU上的并行计算和数值分析

魏浩洋曾国荪丁春玲《计算机应用》2013,33(9):2428-2431

在实际工程应用中,使用传统的CPU串行计算来开展燃烧数值模拟往往难以满足对模拟速度的要求。利用GPU比CPU更强的计算能力,通过在交错网格上将燃烧物理方程离散化,使用预处理稳定双共轭梯度法(PBiCGSTAB)求解离散化方程,并且探索面向GPU编程的矩阵向量乘并行算法和逆矩阵向量乘并行算法,从而给出一种在GPU上数值求解层流扩散燃烧的可行方法。实验结果表明,GPU并行程序获得了相对串行CPU程序约10倍以上的加速效果,且计算结果与实际情况相符,因而所提方法是可行且高效的。相似文献

8.

多核CPU和GPU加速分子动力学模拟

林江宏林锦贤吕暾《计算机应用》2011,31(3):843-847

在多核中央处理器(CPU)—图形处理器(GPU)异构并行体系结构上,采用OpenMP和计算统一设备架构(CUDA)编程实现了基于AMBER力场的蛋白质分子动力学模拟程序。通过合理地将程序划分为CPU单线程、CPU多线程和GPU多线程执行部分,高效地利用了计算机的处理能力。性能测试结果表明,相对于优化后的CPU串行计算,多核CPU-GPU异构并行计算模型有强大的性能优势,特别是将占整个程序执行时间90%的作用力的计算移植到GPU上执行,获得了最高可达12倍的计算加速比。相似文献

9.

AMD下一代GPU架构路线图揭秘

沈建苗《微电脑世界》2011,(8):10-13

最近,关于CPU和GPU融合的话题非常火爆,Intel和AMD也在互相争辩,认为自己才是真正的融合。抛开AMD在处理器性能和制造工艺方面的落后不谈,AMD新的图形架构思路却并不落后。其意图不仅仅在于绘制出更漂亮的图形,更在于改变计算机的计算方式。AMD这家芯片设计厂商在6月份举行的Fusion开发者峰会上首次披露下一代GPU架构时,再三保证:未来的APU(加速处理单元,这家公司称之为CPU/GPU融合体)并非仅仅将CPU和GPU归入共享同一块硅片的相邻部件这么简单,而是力求让CPU和GPU在处理计算机的操作系统和应用程序交给它相似文献

10.

基于图形处理器加速的医学图像配准技术进展

查珊珊王远军聂生东《计算机应用》2015,35(9):2486-2491

针对目前医学图像配准技术无法满足临床实时性需求问题,对基于图形处理器(GPU)加速的医学图像配准技术进行综述探讨。首先对GPU通用计算进行概述,再以医学图像配准基本框架为主线,对近年来基于GPU加速的医学图像配准技术在国内外发展现状进行深入研究,并针对正电子发射型计算机断层显像(PET)和电子计算机断层扫描(CT)数据的非线性配准问题,分别基于中央处理器(CPU)和GPU平台进行配准实验,通过实验结果的对比,体现GPU加速配准技术的优越性。基于GPU加速的自由形变(FFD)和归一化互信息(NMI)结合的非线性配准方法配准后互信息值略低于CPU平台的配准结果,但其配准速度是CPU平台的12倍。基于GPU加速的配准算法在保持配准精度的基础上,配准速度都得到了很大的提升。相似文献

11.

面向ARM64架构多核微处理器的模板计算性能优化研究

冯璐霞李春江黄亚斌《计算机工程与科学》2017,39(5):829-833

模板计算是一类重要的计算核心,广泛存在于图像和视频处理以及大规模科学和工程计算领域。但是,针对ARM64高性能处理器的模板计算性能的优化研究还很少。为了实现典型模板计算核心在ARM64架构多核微处理器上的并行化和性能优化,基于AMCC X-GENE2和飞腾FT-1500A多核微处理器特点,提出了基于两维度绑定的优化方法,该方法通过线程与CPU绑定以及线程与数据块绑定,减少了线程调度的并行开销,增加了Cache的命中率。实验结果表明,该方法提升了模板计算在ARM64架构多核微处理器上的性能,且在两种ARM64架构多核微处理器平台上都表现出较好的可扩展性。相似文献

12.

Simulation of Analog Costas Loop Circuits

Roland E.Best Nikolay V.Kuznetsov Gennady A.Leonov Marat V.Yuldashev Renat V.Yuldashev 《国际自动化与计算杂志》2014,(6)

The analysis of stability and numerical simulation of Costas loop circuits for the high-frequency signals is a challenging task. The problem lies in the fact that it is necessary to observe very fast time scale of input signals and slow time scale of signal s phases simultaneously. To overcome this difficulty, it is possible to follow the classical ideas of Gardner and Viterbi to construct a mathematical model of Costas loop, in which only slow time change of signal s phases and frequencies is considered. Such an construction, in turn,requires the computation of phase detector characteristic, depending on the waveforms of the considered signals. In this paper, the problems of nonlinear analysis of Costas loops and the approaches to the simulation of the classical Costas loop, the quadrature phase shift keying(QPSK) Costas loop, and the two-phase Costas loop are discussed. The analytical method for the computation of phase detector characteristics of Costas loops is described. 相似文献

13.

高性能并行计算在航空航天CFD数值模拟中的应用

潘沙李桦夏智勋《计算机工程与科学》2012,34(8):191-198

本文介绍了高性能并行计算在CFD数值模拟中的应用。CFD高性能并行计算可扩大求解规模,加快求解速度,是CFD实现高效计算的必然发展趋势。本文通过"数值风洞"的概念分析了CFD高性能计算的应用前景及对高性能计算的需求。通过某乘波飞行器前体并行算例对8～256CPU的CFD大规模并行效率和加速比进行了分析,并将CFD并行计算应用于高温热化学非平衡的返回舱数值计算中。相似文献

14.

GPU加速的高精度数字地面模型建模方法

闫长青岳天祥《计算机工程与应用》2012,48(22):22-27

以曲面轮为基础发展的高精度曲面建模方法（HASM）可以建立具有高精度的数字高程模型,但使用该方法需要求解偏微分方程离散产生的大规模线性方程组,计算量巨大,严重制约了对大规模数据的模拟应用;而现代GPU技术的发展使GPU越来越广泛地应用于通用计算加速。为了提高HASM方法的模拟速度,把高精度曲面模拟与GPU通用技术相结合,提出了GPU加速的高精度曲面建模方法。把HASM模拟过程中的有限差分离散、离散后的大规模线性系统求解分别使用GPU进行分解,使用共轭梯度（CG）和预处理共轭梯度方法（PCG）将求解任务分解为可以并行处理的独立的多任务,使得计算任务并行化,同时并行运行大规模线程,每个线程执行一个独立的任务,充分利用了现代GPU强大的通用计算能力,并行处理以获得加速。利用并行化加速的高精度曲面建模算法使用英伟达公司的统一计算开发架构（CUDA）编程实现,GPU采用该公司的Quadro 2000。分别应用该算法进行了数值实验和实际项目区数字高程模型（DEM）模拟实验。实验结果表明,充分利用GPU的并行处理能力加速后的HASM方法,在保证达到相同曲面模拟的精度条件下,和传统的CPU方法相比,算法可以获得超过一个数量级的加速。相似文献

15.

CPU与GPU并行计算的火焰模拟

王栋栋庄雷《计算机应用》2009,29(6):1702-1710

采用基于粒子插值的SPH方法对火焰流体进行模拟,用GPU加速粒子状态地计算,同时用CPU并行地计算粒子邻接关系并控制粒子产生速率。在SPH模型中,较为高效地加入了漩涡场的计算,增加了粒子运动的细节。在粒子渲染过程中,采用了色度场、有向点扩散和颜色锐化技术,由离散的粒子空间分布得到了较为理想的连续火焰图像。由于该方法属于流体模拟的拉格朗日法,所以火焰具有物理真实性,又由于采用GPU为主CPU为辅的计算架构,使得模拟达到了实时。相似文献

16.

基于OpenCL的GPU加速三维时域有限差分电磁场仿真算法研究

代健褚天舒杨照《数值计算与计算机应用》2014,(1):10-11

提出了一种基于开放运算语言（OpenCL）的GPU加速三维时域有限差分（FDTD）电磁场仿真计算的方法．该方法利用图形处理单元（GPU）的并行处理特性并结合OpenCL接口标准实现了时域卷积完全匹配层（CPML）吸收边界条件的三维FDTD的高性能加速计算．首先设置FDTD仿真参数并动态申请内存空间,然后初始化OpenCL的计算参数,对三维电磁模型基于OpenCL进行FDTD加速仿真．本方法显著提升了FDTD电磁场仿真速度,与利用CPU计算相比速度提升可达5-8倍,且具有CPML吸收边界条件,可以模拟电磁波在自由空间的传播;基于OpenCL编译的语言程序可以运行在CPU或GPU硬件上,并可充分发挥多核CPU的并行计算能力,使得FDTD电磁场仿真具有更广泛的实际应用．相似文献

17.

Parallelizing and optimizing large‐scale 3D multi‐phase flow simulations on the Tianhe‐2 supercomputer

Dali Li Chuanfu Xu Yongxian Wang Zhifang Song Min Xiong Xiang Gao Xiaogang Deng 《Concurrency and Computation》2016,28(5):1678-1692

The lattice Boltzmann method (LBM) is a widely used computational fluid dynamics method for flow problems with complex geometries and various boundary conditions. Large‐scale LBM simulations with increasing resolution and extending temporal range require massive high‐performance computing (HPC) resources, thus motivating us to port it onto modern many‐core heterogeneous supercomputers like Tianhe‐2. Although many‐core accelerators such as graphics processing unit and Intel MIC have a dramatic advantage of floating‐point performance and power efficiency over CPUs, they also pose a tough challenge to parallelize and optimize computational fluid dynamics codes on large‐scale heterogeneous system. In this paper, we parallelize and optimize the open source 3D multi‐phase LBM code openlbmflow on the Intel Xeon Phi (MIC) accelerated Tianhe‐2 supercomputer using a hybrid and heterogeneous MPI+OpenMP+Offload+single instruction, mulitple data (SIMD) programming model. With cache blocking and SIMD‐friendly data structure transformation, we dramatically improve the SIMD and cache efficiency for the single‐thread performance on both CPU and Phi, achieving a speedup of 7.9X and 8.8X, respectively, compared with the baseline code. To collaborate CPUs and Phi processors efficiently, we propose a load‐balance scheme to distribute workloads among intra‐node two CPUs and three Phi processors and use an asynchronous model to overlap the collaborative computation and communication as far as possible. The collaborative approach with two CPUs and three Phi processors improves the performance by around 3.2X compared with the CPU‐only approach. Scalability tests show that openlbmflow can achieve a parallel efficiency of about 60% on 2048 nodes, with about 400K cores in total. To the best of our knowledge, this is the largest scale CPU‐MIC collaborative LBM simulation for 3D multi‐phase flow problems. Copyright © 2015 John Wiley & Sons, Ltd. 相似文献

18.

Polynomial regression and interpolation of thermodynamic data in Al–Si–Mg–Fe system

《Calphad》2015

A numerical technique for constructing thermodynamic databases has been proposed. This technique offers accurate calculations of solidification temperature, phase fractions, and solute concentrations of specific alloys in quaternary systems. The thermodynamic data is extracted by calling the TQ-interface (Thermodynamic Calculation Interface) from Thermo-Calc software, and modeled through efficient computational approaches such as polynomial regression and interpolation. This method is described in three parts. First, the applicability of regression functions is demonstrated on the Al–Si binary phase diagram. Second, the way of combining polynomial regression and interpolation is applied to model the Al–Si–Mg ternary system. Finally, the A356 alloy, which belongs to the Al–Si–Mg–Fe system, is modeled by a series of sub-ternary systems using regression and interpolation. The valid accuracy of the method is demonstrated by comparing the present results with those calculated using Thermo-Calc software. The application of the TQ-interface to solidification processes in Scheil and lever-rule models is also included. The results indicate that this method can offer accurate thermodynamic parameters for the A356 alloy in Al–Si–Mg–Fe system and reduce CPU time significantly when applied to solidification simulation. Several problems and the corresponding strategies for high order functions, unsmooth variations of thermodynamic information and partition coefficients are discussed to improve this method. This technique can also be applied to other specific alloys with small variations of thermodynamic variables in quaternary systems. 相似文献

19.

基于CUDA的弱可压SPH流体建模与仿真

段兴锋任鸿翔神和龙《计算机工程与科学》2018,40(8):1375-1382

为了实现小尺度范围流体场景的实时、真实感模拟,采用弱可压SPH方法对水体进行建模,提出了流体计算的CPU GPU混合架构计算方法。针对邻域粒子查找算法影响流体计算效率的问题,采用三维空间网格对整个模拟区域进行均匀网格划分,利用并行前缀求和和并行计数排序实现邻域粒子的查找。最后,采用基于CUDA并行加速的Marching Cubes算法实现流体表面提取,利用环境贴图表现流体的反射和折射效果,实现流体表面着色。实验结果表明,所提出的流体建模和模拟算法能实现小尺度范围流体的实时计算和渲染,绘制出水的波动、翻卷和木块在水中晃动的动态效果,当粒子数达到1 048 576个时,GPU并行计算方法相较CPU方法的加速比为60.7。相似文献

20.

利用并行GPU对分层分布式狄利克雷分布算法加速

温腊芮建武何婷婷郭亮《计算机应用》2013,33(12):3313-3316

分层分布式狄利克雷分布(HD-LDA)算法是一个对潜在狄利克雷分布(LDA)进行改进的基于概率增长模型的文本分类算法,与只能在单机上运行的LDA算法相比,可以运行在分布式框架下,进行分布式并行处理。Mahout在Hadoop框架下实现了HD-LDA算法,但是因为单节点算法的计算量大,仍然存在对大数据分类运行时间太长的问题。而大规模文本集合分散到多个节点上迭代推导,单个节点上文档集合的推导仍是顺序进行的,所以处理大规模文本集合时仍然需要很长时间才能完成全部文本的分类。为此,提出将Hadoop与图形处理器(GPU)相结合,将单节点文本集合的推导过程转移到GPU上运行,实现单节点多个文档并行推导,利用多台并行的GPU对HD-LDA算法进行加速。应用结果表明,使用该方法能使分布式框架下的HD-LDA算法对大规模文本集合处理达到7倍的加速比。相似文献