共查询到17条相似文献,搜索用时 78 毫秒
1.
基于GPU的并行集群系统的各类产品遍布我国的生产,生活。本文将介绍GPU的并行集群的技术和其在我国的发展状况。 相似文献
2.
GPU拥有几百GFlops甚至上TFlops的浮点计算能力,将GPU应用于粒子模拟,可有效提高大规模粒子模拟的速度,降低计算成本。本文利用GPU加速三维激光等离子体模拟算法LARED-P,提出了基于CPU+GPU的任务划分、GPU上任务分解、大规模计算核心的分解方法,结合使用了寄存器、纹理内存对算法进行加速。在双精度条件下,移植后的算法在工作频率为1.44GHz的NVIDIA Tesla S1070的单个GPU上获得了相当于主频2.4GHz的Intel(R)Core(TM)2 Quad CPU Q6600单核的6倍加速比。 相似文献
3.
4.
由于超强的计算能力、高速访存带宽、支持大规模数据级并行程序设计等特点,GPU已经成为超级计算机和高性能计算(HPC)集群的主流加速器。随着处理单元的发展和集群节点的拓展,GPU集群不仅在节点层面呈现异构化,节点内也趋于异构化,大大提高了在GPU集群中编程的复杂度。主流GPU异构集群系统大多采用针对GPU的异构计算编程模型与面向分布式内存的消息传递模型的简单结合方式,这种方式使得GPU集群程序设计缺乏确定的准则,往往是低效而且易错的。为了提高在GPU集群中编程的效率,降低编程复杂度,以及实现平台无关性,提出一套异构GPU集群的并行分布式编程的解决方案。该方案通过采用扩展语言方法提出了编程框架DISPAR,并实现了预处理器系统StreamCC。实验证明了其可行性。 相似文献
5.
为了加速对雷达系统的计算机仿真模拟,提出一种基于kD-tree的GPU并行加速算法.采用CUDA实现了多种kD-tree的并行遍历算法,并对这些遍历算法性能进行比较分析,从中筛选出了最适合在GPU上进行雷达模拟加速的Shortstack-kD算法.实验结果表明,Shortstack-kD算法不仅对不同种类的场景都能带来明显的效率提升,还可以根据场景的不同情况控制Shortstack-kD的栈长度,以达到算法的最高性能和最大灵活性;在CPU上进行建树的过程中还针对雷达模拟的应用需求进行了优化. 相似文献
6.
在地震资料的处理应用中,逆时偏移等处理技术由于计算资源的需求量巨大,而不能在实际生产中被广泛采用。GPU及CUDA编程架构的引入大幅提高其运算性能,是解决类似技术应用的有效途径。同时,GPU独特的物理特性使得一些应用不仅不能提高性能,甚至使性能急剧下降。通过逆时偏移技术应用实例来说明GPU的加速效果,同时将其和常规流程进行对比和分析给出应用软件的GPU适用性评价方法。 相似文献
7.
分子对接是预测蛋白质复合物的有效手段。对于分子对接算法的优化旨在加速分子对接效率,降低计算成本,以及充分发挥计算资源的利用率。本文主要采用3个方案对半柔性对接算法进行优化:(1)方案一在CPU端进行优化;(2)方案二在方案一的基础上,利用CUFFT的移植工具CUFFTW为方案一提供部分GPU并行接口;(3)方案三利用GPU并行架构,通过CPU和GPU的协同处理,利用纯并行计算接口进行优化。3种方案对PDB code分别为1PEE,1B6C,4HX3和2SNI的测试蛋白进行结合态和自由态的对接,求得的最小均方根偏差LRMSD小于5 Å,满足了复合物结构预测竞赛要求的中等精度结构标准,验证了对接结果的正确性。最后在保证结果正确性的前提下,测试了不同蛋白在不同方案下的运行速率;在保证不同蛋白对接效率相同的前提下,以1PPE为例,比较了不同方案下的对接速率。实验结果表明在同等旋转步长并保证程序运行结果正确性的前提下,最终的优化效果可提速近10倍,有效改进了半柔性对接算法的运行速率。 相似文献
8.
蛋白质结构与功能之间的关系非常密切,蛋白质分子体系中的各种相互作用力在空间叠加形成一个综合性作用(分子场),对揭示蛋白质结构与功能之间的内在关系具有重要意义.提出了基于线性标度量子化学理论的蛋白质分子场快速计算方法,利用分而治之的思想,根据氨基酸残基把一个蛋白质大分子分解成若干片段,然后对每个片段单独计算,最后对各片段的重要区域在空间网格点上进行拼接,获得完整的三维分子场数据;为了提高计算速度,还提出了基于MPICH模型的并行计算方法.实验结果证明,文中方法能实现复杂蛋白质分子的分子场的高效、高精度计算. 相似文献
9.
分子场是研究分子结构与功能的重要工具之一,已经成为药物设计和分子对接的常规方法。分子间作用力分布在3维空间,现有的蛋白质显示方法,如范德华表面,分子表面,球棍模型等,都难以对分子间作用力进行空间可视化分析。分子间各种相互作用中,静电力和范德华力在许多生物过程中都扮演着重要的角色,对蛋白质静电相互作用和范德华相互作用的正确计算模拟有着重要的理论和实践意义。分子场的计算分析从蛋白质分子结构出发,先经过分子模拟采样计算得到分子场,再对分子场进行可视化分析,提出针对分子场特点的分步式传输函数设计法,直观地反映了分子场在空间的分布,对于分析蛋白质结构功能、了解分子间相互作用机理以及进行药物设计和分子对接都有重要作用。 相似文献
10.
对于复杂输入的贝叶斯网络,精确推理时间较长。文中针对贝叶斯网络精确推理中的团树传播算法,提出了一种基于CPU-GPU异构计算平台的并行化方法。首先研究团节点间信念势更新方式,提出了节点级并行化方法加速更新过程;其次,提出了利用计算复杂度的优先级队列方法,通过拓扑级并行化加速全局推理过程;最后,通过输入不同团树结构-线性结构、两分支二叉树结构和完全二叉树结构验证算法加速效果。实验结果表明,节点级并行化方法对线性结构有明显加速效果,拓扑级并行化对两分支二叉树和满二叉树结构有明显加速效果。 相似文献
11.
第一性原理计算软件在密度泛函理论的发展中起着重要作用。相比平面波方法,局域轨道法更适合处理大规模多体问题。随着问题规模的不断增大和计算机计算能力的提升,软件的并行加速成为一个重要课题,MPI(message passing interface)结合GPU(graphic processing unit)实现的异构并行是一个新的解决方案。基于局域轨道法的第一性原理计算软件MESIA(massive electronic simulation based on systematically improvable atomic bases)经过MPI+OpenMP+CUDA三级并行,单GPU取得了约15倍的加速比,同时表现出了良好的可扩展性。测试结果同时验证了使用GPU计算可以保证计算精度。 相似文献
12.
13.
人工神经网络训练所包含的运算量随着网络中神经元的数量增多而加大,对于神经元较多的网络训练很耗时。提高人工神经网络训练速度的一个方法是对训练算法优化以减少计算量。由于人工神经网络训练算法包含大量的矩阵和向量运算,如果把优化的算法用运行在GPU上的OpenCL C语言实现,则训练速度相比传统基于CPU计算的实现会提高很多。从硬件的并行计算能力着手,以RPROP算法为例,对其运行在GPU上的OpenCL C语言实现作一些研究。 相似文献
14.
Determining the three-dimensional structure of proteins is crucial to efficient drug design and understanding biological processes. One successful method for computing the molecule’s shape relies on inter-atomic distance bounds provided by Nuclear Magnetic Resonance spectroscopy. The accuracy of computed structures as well as the time required to obtain them are greatly improved if the gaps between the upper and lower distance-bounds are reduced. These gaps are reduced most effectively by applying the tetrangle inequality, derived from the Cayley-Menger determinant, to all atom-quadruples. However, tetrangle-inequality bound-smoothing is an extremely computation intensive task, requiring O(n4) time for an n-atom molecule. To reduce computation time, we propose a novel coarse-grained parallel algorithm intended for a Beowulf-type cluster of PCs. The algorithm employs p ≤ n/6 processors and requires O(n4/p) time and O(p2) communications, where n is the number of atoms in a molecule. The number of communications is at least an order of magnitude lower than in the earlier parallelizations. Our implementation utilized processors with at least 59% efficiency (including the communication overhead)—an impressive figure for a non-embarrassingly parallel problem on a cluster of workstations. 相似文献
15.
从单个GPU异构并行系统来看,其性能还是比较有限,文章阐述了基于GPU集群的CUDA架构实现过程,详细分析基于GPU集群进行MD5快速破解的编译过程,并对破解程序进行测试研究,对其运行结果进行测试和分析,探讨搭建GPU高性能计算集群及其进行MD5算法的快速破解的过程。 相似文献
16.
Akihiro Uchida Yasuaki Ito 《International Journal of Parallel, Emergent and Distributed Systems》2014,29(4):401-420
Recent graphics processing units (GPUs) can be used for general purpose parallel computation. Ant colony optimisation (ACO) approaches have been introduced as nature-inspired heuristics to find good solutions of the travelling salesman problem (TSP). In ACO approaches, a number of ants traverse the cities of the TSP to find better solutions of the TSP. The ants randomly select next visiting cities based on the probabilities determined by total amounts of their pheromone spread on routes. The main contribution of this paper is to present sophisticated and efficient implementation of one of the ACO approaches on the GPU. In our implementation, we have considered many programming issues of the GPU architecture including coalesced access of global memory and shared memory bank conflicts. In particular, we present a very efficient method for random selection of next cities by a number of ants. Our new method uses iterative random trial which can find next cities in few computational costs with high probability. This idea can be applied in not only GPU implementation but also CPU implementation. The experimental results on NVIDIA GeForce GTX 580 show that our implementation for 1002 cities runs in 8.71 s, while the CPU implementation runs in 190.05 s. Thus, our GPU implementation attains a speed-up factor of 22.11. 相似文献
17.
GPU中的流体场景实时模拟算法 总被引:2,自引:0,他引:2
为了实时模拟真实的大规模流体场景,提出一种基于平滑粒子流体力学(SPH)进行流体场景模拟的算法.首先提出了新的精细程度函数作为非均匀采样的依据,以减少实际模拟时所需的粒子数,提高模拟的速度;然后引入一种三维空间网格划分算法和改进的并行基数排序算法,以加快模拟过程中对邻域粒子和边界的查找及其相互作用的计算;最后使用最新的NVIDIA(CUDA(架构,将SPH的全部模拟计算分配到GPU流处理器中,充分利用GPU的高并行性和可编程性,使得对SPH方法的流体计算和模拟达到实时.实验结果表明,采用文中算法能对流体场景的计算模拟达到实时,并实现比较真实的模拟效果.与已有的SPH流体CPU模拟方法相比,其加速比达到2个数量级以上,同时相比已有GPUSPH方法,能模拟出更为丰富的细节效果. 相似文献