共查询到10条相似文献,搜索用时 93 毫秒
1.
2.
图形处理器(graphic processing unit,GPU)的最新发展已经能够以低廉的成本提供高性能的通用计算。基于GPU的CUDA(compute unified device architecture)和OpenCL(open computing language)编程模型为程序员提供了充足的类似于C语言的应用程序接口(application programming interface,API),便于程序员发挥GPU的并行计算能力。采用图形硬件进行加速计算,通过一种新的GPU处理模型——并行时间空间模型,对现有GPU上的N-body实现进行了分析,从而提出了一种新的GPU上快速仿真N-body问题的算法,并在AMD的HD Radeon 5850上进行了实现。实验结果表明,相对于CPU上的实现,获得了400倍左右的加速;相对于已有GPU上的实现,也获得了2至5倍的加速。 相似文献
3.
4.
图形处理器CUDA编程模型的应用研究 总被引:5,自引:0,他引:5
钱悦 《计算机与数字工程》2008,36(12)
由于图形处理器(GPU)最近几年的快速发展,基于 GPU 的通用计算已经成为一个新的研究领域.通过对nVIDIA 公司最新的通用计算 GPU 编程模型-CUDA 的研究,阐明了 CUDA 应用程序的结构和它本身特征,讨论和分析了 CUDA 编程方法与普通 CPU 编程的差别,并以 H.264 数字视频编解码中,以消除宏块边界锯齿为主要目的的去块滤波模块为实例.详细描述了 CUDA 编程的方法和特点,最后通过与 CPU 编程实现的去块滤波模块的性能比较,揭示了 CUDA 在计算能力上的优势,为进一步优化编解码器性能和 GPU 通用计算提供了新的方法和思路. 相似文献
5.
6.
Nvidia在GeForce 8系列显卡上推出的CUDA(统一计算设备架构)技术使GPU通用计算(GPGPU)从图形硬件流水线和高级绘制语言中解放出来,开发人员无须掌握图形学编程方法即可在单任务多数据模式(SIMD)下完成高性能并行计算。研究了CUDA的设计思想和编程方式,改进了基于双三次B样条曲面的图像缩放算法,使用多个线程将计算中耗时的B样条重采样部分改造成SIMD模式,并分别采用CUDA中全局存储器和共享存储器策略在CUDA上完成图像缩放的全过程。实验结果表明,基于CUDA的B样条曲面并行插值方法成功实现了硬件加速,相对于CPU上运行的B样条缩放算法,其执行效率明显提高,易于扩展,对于大规模数据处理呈现出良好的实时处理能力。 相似文献
7.
DirectX发展及相关GPU通用计算技术综述 总被引:1,自引:0,他引:1
以DirectX最近几个关键版本的更替为主线,介绍了近年来DirectX及相应的图形处理器(GPU)可编程性的发展.详细阐述了GPU编程模型在DircctX不同版本下的特点与性能,包括着色器架构、着色器语言、浮点纹理格式、程序流程控制等几个方面,以及编程模型方面的不同特点与性能对GPU通用计算带来的影响,并从软件和硬件两方面分析了这一领域未来的机遇和挑战. 相似文献
8.
随着GPU通用计算技术应用的不断深入,如何把某些并行计算任务从传统的CPU平台向GPU平台转移,把串行编程模型向并行的流式编程模型转变等,已经成为了研究的热点.讨论了基于GPU的流式编程模型,探讨了基于流式编程模型的GPU与CPU编程之间的差别与联系,最后描述了一种在GPU上的流式缩减操作算法的设计与实现.为把图形处理器应用在通用计算领域提供参考和帮助. 相似文献
9.
针对进行大规模拓扑优化问题计算量庞大且计算效率低的问题,设计并实现了一种基于图形处理器(GPU)的并行拓扑优化方法.采用双向渐进结构拓扑优化(BESO)为基础优化算法,采用一种基于节点计算的共轭梯度求解方法用于有限元方程组求解.通过对原串行算法的研究,并结合GPU的计算特点,实现了迭代过程全流程的并行计算.上述方法的程序设计和编写采用统一计算架构(CUDA),提出了基于单元和基于节点的两种并行策略.编写程序时充分使用CUDA自带的各种数学运算库,保证了程序的稳定性和易用性.数值算例证明,并行计算方法稳定并且高效,在优化结果一致的前提下,采用GTX580显卡可以取得巨大的计算加速比. 相似文献
10.
本文介绍了GPU并行计算的优越性,并对基于GPU平台的开发框架和编程环境CUDA给予概述;在CUDA环境中开发DCT算法代码,实现了DCT算法代码从CPU平台向GPU平台的移植;并通过对比两个计算平台上DCT算法的计算耗时,分析了GPU计算平台的优越性。 相似文献