首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
使用GPU加速分子动力学模拟中的非绑定力计算   总被引:1,自引:0,他引:1  
在分子动力学模拟(MD)中,对非绑定力的计算需要花费大量的时间。本文提出了基于CUDA和Brook+的两种双精度算法,分别在NVIDIA和AMD两款主流GPU上实现了非绑定力的计算,借助GPU的计算能力加速了整个MD程序。算法对MD进行了任务分割,采用区域分解的方法将非绑定力的计算映射到GPU的计算核心上,同时针对两款GPU的各自特点提出了线程块内共享存储、最小化数据集两种优化方法。性能测试结果表明,与Intel Xeon 2.6GHzCPU的单核相比,43.2万粒子的高速粒子碰撞模拟,在配置NVIDIA Tesla C1060的系统上性能提高了6.5倍,在配置AMD HD4870的系统上性能提高了4.8倍。  相似文献   

2.
二维扩散方程的GPU加速   总被引:1,自引:0,他引:1  
近几年来,GPU因拥有比CPU更强大的浮点性能备受瞩目。NVIDIA推出的CUDA架构,使得GPU上的通用计算成为现实。本文将计算流体力学中Benchmark问题的二维扩散方程移植到GPU,并采用了全局存储和纹理存储两种方法。结果显示,当网格达到百万量级的时候,得到了34倍的加速。  相似文献   

3.
提出一种基于水面物理特征和GPU实时加速的水面效果三维模拟方法.根据水面运动的物理特征和水面纹理变化特征,采用4个周期函数叠加产生几何波和2个周期函数叠加产生纹理渡,使用凹凸纹理表现水面的细节.通过环境映射实时模拟出水面的反射等现象,通过GPU实时加速渲染,最终生成实时并且生动逼真的水面。  相似文献   

4.
分析研究一种新的图形硬件架构CUDA,基于其类C语言硬件开发环境和多线程的硬件执行机制,实现了基于GPU的几何失真校正的数学贴图映射,并根据像素分辨率的不同情况分别进行了实验验证,证明该方法比基于CPU的实现具有更高的场景交互速度,保证了视景系统的真实感和实时性.  相似文献   

5.
为提高非线性数据降维算法效能,分析这类算法的特点,综合考虑KNN计算和解决Sparse特征值两个问题,提出将LLE算法中的KNN搜索算法及大型稀疏矩阵解特征值这两个部分并行在GPU的运算平台上,通过这种方法来加快所有基于LLE发展而来的数据降维技术的执行时间.仿真计算结果表明,在KNN方面整体加速可达40至50倍,在解...  相似文献   

6.
为了得到虚拟外科手术中人体软组织的实时变形仿真,采用了基于模态分析的模型约简方法,同时结合了GPU加速技术,实现了人体软组织的实时仿真计算,为虚拟手术提供了良好的人机交互.模型约简以有限元理论为基础,将软组织模型的动力学方程投射到约筒子空间,减少系统自由度.在实时仿真过程中,首先需在子空间中对低维动力学模型进行数值计算,然后利用GPU通用计算技术来加速重建原始空间中的形变向量.以心脏大变形实时仿真为例,验证方法的性能,实验结果表明心脏的变形仿真可以在很高的刷新率下运行.提出的模型约简和GPU加速方法,为人体软组织的变形实现了实时仿真,为虚拟手术提供了理论基础和技术支撑.  相似文献   

7.
针对图形处理器研究问题,其中图形海量数据集的分析与处理,多用小波变换方法。但计算量大,难以适应实时性要求。近年来图形处理器的性能大幅提高,其深度流水线和并行运算机制提高,为解决实时计算问题提供了良好的平台。在研究小波变换矩阵形式及GPU编程模型的基础上,提出了一种关于GPU的小波变换方法,利用数组与纹理之间的对应关系实现小波变换,将离散的数据点映射到纹理,将小波变换的计算影射为高维矩阵与向量间的乘积形式,并通过渲染到纹理的形式取得中间结果。方法充分发挥了GPU流水线的并行性优势,实验表明方法可有效减少计算时间,从而达到实时绘制的要求。  相似文献   

8.
GPU shaders seem used mostly for gaming and other forms of entertainment and simulation. But they have less-obvious visualization uses, for the same reasons that interest the gaming community: improved appearance and performance. This column looks at the use of shaders and the OpenGL shading language (GLSL) in two common visualization applications: point clouds and contour cutting planes.  相似文献   

9.
Multimedia Tools and Applications - Permutation-based indexing is one of the most popular techniques for the approximate nearest-neighbor search problem in high-dimensional spaces. Due to the...  相似文献   

10.
邹治海  沈祥  黄田  祝永新 《计算机应用》2011,31(Z1):168-171
CPU与图形处理器(GPU)作为两种主要的通用处理器,在协同工作时存在功耗过大、体积不易压缩、传输速度慢等问题,因而融合成为一种趋势。在分析两者技术特点及通过高性能基准程序实测其性能基础上,提出一种新型融合架构。该融合架构采用低功耗处理器进行任务分配,根据任务类型及计算量,平衡串行处理核心和并行处理核心之间的任务调度及使用效率;而两种处理核心专注于进行数据处理,根据不同任务采用不同组合方式。通过性能评估,该新融合架构在计算能力和功耗方面均有较大改善。  相似文献   

11.
OP2 is an “active” library framework for the solution of unstructured mesh applications. It aims to decouple the specification of a scientific application from its parallel implementation to achieve code longevity and near-optimal performance through re-targeting the back-end to different multi-core/many-core hardware. This paper presents the design of the current OP2 library for generating efficient code targeting contemporary GPU platforms. In this we focus on some of the software architecture design choices and low-level optimizations to maximize performance on NVIDIA’s Fermi architecture GPUs. The performance impact of these design choices is quantified on two NVIDIA GPUs (GTX560Ti, Tesla C2070) using the end-to-end performance of an industrial representative CFD application developed using the OP2 API. Results show that for each system, a number of key configuration parameters need to be set carefully in order to gain good performance. Utilizing a recently developed auto-tuning framework, we explore the effect of these parameters, their limitations and insights into optimizations for improved performance.  相似文献   

12.
Contemporary many-core processors such as the GeForce 8800 GTX enable application developers to utilize various levels of parallelism to enhance the performance of their applications. However, iterative optimization for such a system may lead to a local performance maximum, due to the complexity of the system. We propose program optimization carving, a technique that begins with a complete optimization space and prunes it down to a set of configurations that is likely to contain the global maximum. The remaining configurations can then be evaluated to determine the one with the best performance. The technique can reduce the number of configurations to be evaluated by as much as 98% and is successful at finding a near-best configuration. For some applications, we show that this approach is significantly superior to random sampling of the search space.  相似文献   

13.
一种基于并行度分析模型的GPU功耗优化技术   总被引:3,自引:0,他引:3  
随着硬件功能的不断丰富和软件开发环境的逐渐成熟,GPU开始被应用于通用计算领域,协助CPU加速程序的运行.为了追求高性能,GPU往往包含成百上千个核心运算单元.高密度的计算资源,使得其在性能远高于CPU的同时功耗也高于CPU.功耗问题已经成为制约GPU发展的重要问题之一.DVFS技术被广泛应用于处理器的低功耗优化,而对...  相似文献   

14.
The Journal of Supercomputing - The high efficiency video coding (HEVC) standard has opened the door to high-quality multimedia contents and new formats such as ultra-high definition as a result of...  相似文献   

15.
近几年随着GPU的可编程能力的增强,很多基于点的绘制算法都可以移植到GPU上来实现,这样既可以让CPU有时间来处理其他事,又可以通过GPU提高算法的运行速度。由于目前的GPU不支持epsilon-z-buffering算法,大部分基于GPU的绘制算法都是通过Multi-pass绘制来达到较高的绘制质量。然而,这些算法需要在第一和第二个pass中光栅化大量的可能可见的面圆,并在第二个pass的像素shader中对这些可能可见的面圆进行大量的计算。本文提出了一种基于GPU的改进Multi-pass绘制算法,与前面的Multi-pass算法相比,我们的算法只需在第一个pass中对大量可能可见的面圆进行光栅化和深度测试后,便可求出所有可见面圆,即离视点最近的面圆。然后在第二个pass中只对这些可见面圆进行光栅化和逐像素计算,从而避免了大量不必要的计算。  相似文献   

16.
在GPU上实现地形渲染的自适应算法   总被引:3,自引:0,他引:3  
为了满足飞行状态实时监控系统对地形渲染快速逼真的要求,提出一种基于GPU的交互式地形自适应渲染算法.该算法中每帧渲染包含2遍GPU处理过程:第1遍采用流计算的方式,利用固定网格映射方法生成粗糙地形采样网格,在此基础上,根据地形表面复杂度计算粗糙采样网格中每个三角形的细化深度;第2遍进行地形的渲染,根据第1遍计算出来的每个面片的细化等级,选择初始化阶段预存储在GPU缓存中的不同细化等级的网格模板,对粗糙采样网格进行自适应细分,为了消除T型连接的问题,在顶点着色器中包含了一个网格模板的匹配处理过程.最后采用高程数据配合卫星照片的方式,生成具有高度仿真的三维虚拟地貌.基于文中算法实现的实时监控系统在支线飞机的飞行试验中取得了较好的效果.  相似文献   

17.
基于样图的纹理合成是一个大计算量过程,为了利用GPU的并行计算能力进行大规模纹理合成,我们提出一种并行纹理合成算法.该算法综合块查找和全局纹理优化算法分多遍进行纹理的合成和优化,其中每一遍分为串行纹理块定位和并行最优块匹配2个阶段.纹理块定位阶段在CPU端按照扫描线顺序确定待合成的邻域,并将邻域位置传入GPU;最优块匹配阶段在GPU端并行计算待合成邻域与对应样本邻域的全局距离,并查找出最优解得到匹配块.最后根据匹配过程统计数据自适应调整优化规模,在全局范围内对纹理进行迭代优化.实验结果表明,文中算法在保证大规模纹理合成效果的基础上减少了计算时间,能够满足交互式纹理合成的应用.  相似文献   

18.
基于异构GPU集群的主流编程方法是MPI与CUDA的混合编程或者其简单变形。因为对底层的集群架构不透明,程序员对GPU集群采用MPI与CUDA编写应用程序时需要人为考虑硬件计算资源,复杂度高、可移植性差。为此,基于数据流模型设计和实现面向节点异构GPU集群体系结构的新型编程框架分布式并行编程框架(DISPAR)。 DISPAR框架包含2个子系统:(1)代码转换系统StreamCC,是DISPAR源代码到MPI+CUDA代码的自动转换器。(2)任务分配系统StreamMAP,具有自动发现异构计算资源和任务自动映射功能的运行时系统。实验结果表明,该框架有效简化了GPU集群应用程序的编写,可高效地利用异构GPU集群的计算资源,且程序不依赖于硬件平台,可移植性较好。  相似文献   

19.
20.
王桂彬 《计算机学报》2012,35(5):979-989
作为众核体系结构的典型代表,GPU(Graphics Processing Units)芯片集成了大量并行处理核心,其功耗开销也在随之增大,逐渐成为计算机系统中功耗开销最大的组成部分之一,而软件低功耗优化技术是降低芯片功耗的有效方法.文中提出了一种模型指导的多维低功耗优化技术,通过结合动态电压/频率调节和动态核心关闭技术,在不影响性能的情况下降低GPU功耗.首先,针对GPU多线程执行模型的特点,建立了访存受限程序的功耗优化模型;然后,基于该模型,分别分析了动态电压/频率调节和动态核心关闭技术对程序执行时间和能量消耗的影响,进而将功耗优化问题归纳为一般整数规划问题;最后,通过对9个典型GPU程序的评测以及与已有方法的对比分析,验证了该文提出的低功耗优化技术可以在不影响性能的情况下有效降低芯片功耗.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号