首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
应用GPU集群加速计算蛋白质分子场   总被引:3,自引:2,他引:1  
针对生物化学计算中采用量子化学理论计算蛋白质分子场所带来的巨大计算量的问题,搭建起一个GPU集群系统,用来加速计算基于量子化学的蛋白质分子场.该系统采用消息传递并行编程环境(MPI)连接集群各结点,以开放多线程OpenMP编程标准作为多核CPU编程环境,以CUDA语言作为GPU编程环境,提出并实现了集群系统结点中GPU和多核CPU协同计算的并行加速架构优化设计.在保持较高计算精度的前提下,结合MPI,OpenMP和CUDA混合编程模式,大大提高了系统的计算性能,并对不同体系和规模的蛋白质分子场模拟进行了计算分析.与相应的CPU集群、GPU单机和CPU单机计算方法对比,该GPU集群大幅度地提高了高分辨率复杂蛋白质分子场模拟的计算效率,比CPU集群的平均计算加速比提高了7.5倍.  相似文献   

2.
计算机视觉在实际应用中的主要瓶颈是系统的准确性和实时性,而实时性的提高又受限于计算机中处理器的处理速度。在一个视觉定位伺服实际系统中,要求有很高的实时性,尝试研究使用GPU建立实时的视觉系统的实际性。视觉定位系统软件分为图像粗定位(目标识别)、图像精定位、运动解算等几部分。当识别图像像素为640×480时,采用单独GPU加速的方式,比CPU加速了2.1444倍,采用CPU和GPU相结合的方式,比CPU加速了4.1548倍。  相似文献   

3.
张帅  徐顺  刘倩  金钟 《计算机科学》2018,45(10):291-294, 299
分子动力学模拟存在空间和时间的复杂性,并行加速分子的模拟过程尤为重要。基于GPU硬件数据并行架构的特点,组合分子动力学模拟的原子划分和空间划分的并行策略,优化实现了短程作用力计算Cell Verlet算法,并对分子动力学核心基础算法的GPU实现做了优化和性能分析。Cell Verlet算法实现首先采用原子划分的方式,将每个粒子的模拟计算任务映射到每个GPU线程,并采用空间划分的方式将模拟区域进行元胞划分,建立元胞索引表,实现粒子在模拟空间的实时定位;而在计算粒子间的作用力时,引入希尔伯特空间填充曲线方法来保持数据的线性存储与数据的三维空间分布的局部相关性,以便通过缓存加速GPU的全局内存访问;也利用了访存地址对齐和块内共享等技术来优化设计GPU分子动力学模拟过程。实例测试与对比分析显示,当前的算法实现具有强可扩展性和加速比等优势。  相似文献   

4.
在热传导算法中,使用传统的CPU串行算法或MPI并行算法处理大批量粒子时,存在执行效率低、处理时间长的问题。而图形处理单元(GPU)具有大数据量并行运算的优势,为此,在统一计算设备架构(CUDA)并行编程环境下,采用CPU和GPU协同合作的模式,提出并实现一个基于CUDA的热传导GPU并行算法。根据GPU硬件配置设定Block和Grid的大小,将粒子划分为若干个block,粒子输入到GPU显卡中并行计算,每一个线程执行一个粒子计算,并将结果传回CPU主存,由CPU计算出每个粒子的平均热流。实验结果表明,与CPU串行算法在时间效率方面进行对比,该算法在粒子数到达16 000时,加速比提高近900倍,并且加速比随着粒子数的增加而加速提高。  相似文献   

5.
颗粒离散元法是一种广泛应用于研究颗粒物料力学行为的数值模拟方法,而计算效率是制约其发展和应用的主要因素之一。通过Pro/E软件建立了料斗模型,利用Stream DEM软件对料斗的颗粒充填过程进行离散元法模拟研究,并对基于CPU和GPU加速算法的运算过程和结果进行对比。结果表明,基于GPU的计算机图形学加速算法可大幅提高颗粒离散元法模拟过程的运算效率。当填充颗粒数量达到13万时,其运算效率比基于CPU的运算效率提高了10倍以上。  相似文献   

6.
江门中微子实验(JUNO)拥有当前世界上能量精度最高、规模最大的液体闪烁体探测器。缪子是JUNO的主要本底,每个缪子事例在大型探测器中产生百万量级的光子,但复杂的光子模拟计算量巨大,传统串行计算方式耗时较长。为此,提出一种基于GPU的分布式缪子快速模拟方法。利用多GPU卡并行加速闪烁光在液闪探测器中的传输过程,采用信息传递接口通信向多节点分发模拟任务和收集结果。测试结果表明,GPU方法具有良好的加速比,和CPU方法相比,加速比最高可达约250倍。  相似文献   

7.
张延松  刘专  韩瑞琛  张宇  王珊 《软件学报》2023,34(11):5205-5229
GPU数据库近年来在学术界和工业界吸引了大量的关注. 尽管一些原型系统和商业系统(包括开源系统)开发了作为下一代的数据库系统, 但基于GPU的OLAP引擎性能是否真的超过CPU系统仍然存有疑问, 如果能够超越, 那什么样的负载/数据/查询处理模型更加适合, 则需要更深入的研究. 基于GPU的OLAP引擎有两个主要的技术路线: GPU内存处理模式和GPU加速模式. 前者将所有的数据集存储在GPU显存来充分利用GPU的计算性能和高带宽内存性能, 不足之处在于GPU容量有限的显存制约了数据集大小以及稀疏访问模式的数据存储降低GPU显存的存储效率. 后者只在GPU显存中存储部分数据集并通过GPU加速计算密集型负载来支持大数据集, 主要的挑战在于如何为GPU显存选择优化的数据分布和负载分布模型来最小化PCIe传输代价和最大化GPU计算效率. 致力于将两种技术路线集成到OLAP加速引擎中, 研究一个定制化的混合CPU-GPU平台上的OLAP框架OLAP Accelerator, 设计CPU内存计算、GPU内存计算和GPU加速3种OLAP计算模型, 实现GPU平台向量化查询处理技术, 优化显存利用率和查询性能, 探索GPU数据库的不同的技术路线和性能特征. 实验结果显示GPU内存向量化查询处理模型在性能和内存利用率两方面获得最佳性能, 与OmniSciDB和Hyper数据库相比性能达到3.1和4.2倍加速. 基于分区的GPU加速模式仅加速了连接负载来平衡CPU和GPU端的负载, 能够比GPU内存模式支持更大的数据集.  相似文献   

8.
基于硬件加速和粒子系统的实时喷泉模拟   总被引:6,自引:0,他引:6  
喷泉效果可以增强三维场景的真实感。论文用粒子系统作为喷泉建模的方法,通过动力学原理模拟水流的运动,对水流中粒子的运动采用循环式的重复使用,从而大大提高程序运行效率。利用Direct3D对粒子绘制的支持,通过Shader编程充分挖掘GPU的处理能力,并对水珠粒子进行多样化的高效绘制。通过CPU与GPU相互结合的方式,既保证了喷泉效果的真实感,又有较高的运行效率,也能满足系统实时性的速度需求。  相似文献   

9.
为了提高软件过程仿真的效率,提出了一种基于图形处理单元(graphic processing unit,GPU)加速的仿真框架.该框架利用图形化语言和随机参数来描述一个过程模型,将模型转换为RansomSpec字节码从而可以在GPU平台上运行,以期借助GPU平台的高并行特性提高原有仿真算法的效率.实验结果表明,通过这种框架,基于GPU的随机软件过程仿真与传统基于CPU串行的仿真算法相比在效率上提高一个数量级.  相似文献   

10.
粒子模拟是研究离散粒子和连续介质运动规律的常用方法.而大规模的粒子模拟通常借助高性能计算系统.近年来,得益于其众核架构,图形处理器(GPU)已成为高性能计算的重要设备,并被广泛用于大规模粒子模拟过程的加速.本文讨论了一种对GPU加速的分布式粒子模拟进行在线可视化的方法.在该方法中,GPU除了被用于加速粒子模拟过程外,也被用于数据到图像的快速转换.同时,并行绘制技术被用于分布式数据的可视化.通过本文所述的方法,用户可在并行计算运行过程中,通过显示于拼接显示墙的高分辨率图像,实时地观察到粒子模拟中发生的现象,并对计算过程进行跟踪和调整.  相似文献   

11.
稀疏矩阵与向量相乘SpMV是求解稀疏线性系统中的一个重要问题,但是由于非零元素的稀疏性,计算密度较低,造成计算效率不高。针对稀疏矩阵存在的一些不规则性,利用混合存储格式来进行SpMV计算,能够提高对稀疏矩阵的压缩效率,并扩大其适应范围。HYB是一种广泛使用的混合压缩格式,其性能较为稳定。而随着GPU并行计算得到普遍应用以及CPU日趋多核化,因此利用GPU和多核CPU构建异构并行计算系统得到了普遍的认可。针对稀疏矩阵的HYB存储格式中的ELL和COO存储特征,把两部分数据分别分割到CPU和GPU进行协同并行计算,既能充分利用CPU和GPU的计算资源,又能够发挥CPU和GPU的计算特性,从而提高了计算资源的利用效能。在分析CPU+GPU异构计算模式的特征的基础上,对混合格式的数据分割和共享方面进行优化,能够较好地发挥在异构计算环境的优势,提高计算性能。  相似文献   

12.
在粒子方法中,运用邻近粒子搜索算法可以快速获取每个粒子的邻近粒子信息。由于粒子方法模拟一个体系的行为所采用的粒子数据是十分庞大的,对计算机的运算速度提出了挑战。研究了GPU的计算能力和CUDA开发环境,利用GPU的并行多线程处理技术,提出了一种并行邻近粒子搜索算法。实验结果表明,基于CUDA的并行邻近粒子搜索算法,加快了邻近粒子搜索过程,显著地减少了计算时间,成功实现了硬件加速,可获取290以上的加速比,对大规模粒子系统呈现出高效的处理能力。  相似文献   

13.
GPU计算在油气勘探中应用前景   总被引:1,自引:1,他引:0  
油气勘探数据处理工作涉及大量计算,需要高性能计算技术的扶助,目前流行的PC集群在处理工作中存在一些问题,GPU作为一种辅助计算设备能够配合CPU完成一些密集计算的工作.作为一种新兴的高性能计算技术,GPU编程技术的特点使其更适合于中小规模密集型计算环境,因此需要计算机人员在引进该技术时谨慎考虑配置模式,以GPU/CPU协同工作模式有效提升处理系统计算效率.  相似文献   

14.
郭新钊  张军 《计算机仿真》2010,27(1):218-221
水面效果的仿真可大幅提高自然环境仿真的真实感,传统对于CPU的仿真存在占用CPU时间和系统资源的缺点,针对存在问题,建立了基于图形处理单元(GPU)的水面仿真方法,讨论水面特效在GPU上的实现、以及水面网格在GPU中的重构。因为运算以及水面网格重构都在GPU中完成,充分利用GPU强大的图形处理能力,因此不会造成额外的系统开支,并且增强了对水面细节的表现,使得水面的逼真度和实时性增强。  相似文献   

15.
伴随着GPGPU计算技术的不断发展,HPC高性能计算系统体系结构正在悄然发生着一场变革,这场变革为高性能计算发展提供了一个新的方向、CUDA是NIVIDIA公司提供的利用GPGPU进行并行运算应用开发的一套C语言编程平台,通过它可以利用特定显卡的高性能运算能力进行一些大规模高性能计算,有效提升计算机系统的使用效率,本文主要介绍GPU发展现状以及如何利用CUDA编程技术进行并行运算软件开发.  相似文献   

16.
As the prevalence of general purpose computations on GPU, shared memory programming models were proposed to ease the pain of GPU programming. However, with the demanding needs of more intensive workloads, it’s desirable to port GPU programs to more scalable distributed memory environment, such as multi-GPUs. To achieve this, programs need to be re-written with mixed programming models (e.g. CUDA and message passing). Programmers not only need to work carefully on workload distribution, but also on scheduling mechanisms to ensure the efficiency of the execution. In this paper, we studied the possibilities of automating the process of parallelization to multi-GPUs. Starting from a GPU program written in shared memory model, our framework analyzes the access patterns of arrays in kernel functions to derive the data partition schemes. To acquire the access pattern, we proposed a 3-tiers approach: static analysis, profile based analysis and user annotation. Experiments show that most access patterns can be derived correctly by the first two tiers, which means that zero efforts are needed to port an existing application to distributed memory environment. We use our framework to parallelize several applications, and show that for certain kinds of applications, CUDA-Zero can achieve efficient parallelization in multi-GPU environment.  相似文献   

17.
受环境因素影响,卤水下矿床表面地势平缓,采集的矿床点云冗余点较多,为了提高对矿床进行三维建模的效率,设计了一种基于GPU并行的点云简化的改进算法。对每个小栅格内的点进行最小二乘的平面拟合,根据各个点到拟合平面的距离精简了大部分冗余点,并通过剩余点的曲率进行了第二次精简。将整个处理过程限定在每个小栅格内,在降低计算量的同时避免了因过度简化而出现的空洞现象。另外,对点云的简化过程进行了基于GPU的多线程并行处理,极大地提高了整个处理过程的效率。实验表明,算法改进后达到原算法效果的同时提高了算法效率,利用GPU加速后,大大缩短了算法的执行时间。  相似文献   

18.
基于GPGPU的Lattice-Boltzmann数值模拟算法   总被引:5,自引:3,他引:2  
对Lattice Boltzmann方法(LBM)在GPGPU下的建模和算法进行了一系列研究,使得该方法在GPU下的计算加速比提升,大大缩短计算过程的时间消耗.重新设计了GPU的计算流程,在舍弃pixel buffer离屏渲染的同时,采用最新的帧缓存对象,多重纹理、多通道渲染和乒乓技术来设计一套基于方腔的LBM数值模拟程序,最终使GPU的计算时间缩短到CPU计算时间的六分之一.  相似文献   

19.
Molecular dynamics (MD) is an important research tool extensively applied in materials science. Running MD on a graphics processing unit (GPU) is an attractive new approach for accelerating MD simulations. Currently, GPU implementations of MD usually run in a one-host-process-one-GPU (OHPOG) scheme. This scheme may pose a limitation on the system size that an implementation can handle due to the small device memory relative to the host memory. In this paper, we present a one-host-process-multiple-GPU (OHPMG) implementation of MD with embedded-atom-model or semi-empirical tight-binding many-body potentials. Because more device memory is available in an OHPMG process, the system size that can be handled is increased to a few million or more atoms. In comparison with the serial CPU implementation, in which Newton’s third law is applied to improve the computational efficiency, our OHPMG implementation has achieved a 28.9x–86.0x speedup in double precision, depending on the system size, the cut-off ranges and the number of GPUs. The implementation can also handle a group of small simulation boxes in one run by combining the small boxes into a large box. This approach greatly improves the GPU computing efficiency when a large number of MD simulations for small boxes are needed for statistical purposes.  相似文献   

20.
苗旭鹏  王驭捷  沈佳  邵蓥侠  崔斌 《软件学报》2023,34(9):4407-4420
图神经网络由于其强大的表示能力和灵活性最近取得了广泛的关注. 随着图数据规模的增长和显存容量的限制, 基于传统的通用深度学习系统进行图神经网络训练已经难以满足要求, 无法充分发挥GPU设备的性能. 如何高效利用GPU硬件进行图神经网络的训练已经成为该领域重要的研究问题之一. 传统做法是基于稀疏矩阵乘法, 完成图神经网络中的计算过程, 当面对GPU显存容量限制时, 通过分布式矩阵乘法, 把计算任务分发到每个设备上, 这类方法的主要不足有: (1)稀疏矩阵乘法忽视了图数据本身的稀疏分布特性, 计算效率不高; (2)忽视了GPU本身的计算和访存特性, 无法充分利用GPU硬件. 为了提高训练效率, 现有一些研究通过图采样方法, 减少每轮迭代的计算带价和存储需求, 同时也可以支持灵活的分布式拓展, 但是由于采样随机性和方差, 它们往往会影响训练的模型精度. 为此, 提出了一套面向多GPU的高性能图神经网络训练框架, 为了保证模型精度, 基于全量图进行训练, 探索了不同的多GPU图神经网络切分方案, 研究了GPU上不同的图数据排布对图神经网络计算过程中GPU性能的影响, 并提出了稀疏块感知的GPU访存优化技术. 基于C++和CuDNN实现了该原型系统, 在4个不同的大规模GNN数据集上的实验表明: (1)通过图重排优化, 提高了GPU约40%的缓存命中率, 计算加速比可达2倍; (2)相比于现有系统DGL, 取得了5.8倍的整体加速比.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号