共查询到20条相似文献,搜索用时 46 毫秒
1.
作为应用软件模型和计算机硬件之间的桥梁,编程模型在计算机领域的重要性不言而喻.但随着具备细粒度并行计算能力的图形处理器(GPU)进入主流市场,与之相适应的编程模型发展却相对滞后.Nvidia在GeForce 8系列显卡上推出的统一计算设备架构(CUDA)技术,使得通用计算图形处理单元(GPGPU)从图形硬件流水线和高级绘制语言中解放出来,开发人员无须掌握图形学编程方法即可在单任务多数据模式(SIMD)下完成高性能并行计算.论文从特性、组成和并行架构等几个方面对CUDA并行计算模型进行了研究,充分表明基于GPU进行高性能并行计算,是适应目前大规模计算需求的一个重要发展途径. 相似文献
2.
基于CUDA的汇流分析并行算法的研究与实现* 总被引:2,自引:0,他引:2
针对基于数字高程模型(DEM)生成流域等流时线的快速运算问题,提出了一种基于统一设备计算架构(CUDA)平台同时可发挥图形处理器(GPU)并行运算特性的汇流分析的快速并行算法。采用改进后的归并排序算法进行数据排序及新的内存分配策略和改进的并行算法进行汇流分析。用该并行算法和CPU上的串行算法, 对生成基于DEM的等流时线运算时间和矩阵乘法运算时间进行分析验证。实验结果表明,基于CUDA的汇流分析并行算法能提高系统的计算效率,具有较好的效果。 相似文献
3.
基于图形处理器的通用计算模式* 总被引:4,自引:4,他引:0
针对GPU图形处理的特点,分析其应用于通用计算的并行处理机制和数据映射,提出了一种GPU通用计算模式的映射机制和一般性设计方法,并针对GPU的吞吐量、数据流处理能力和基本数学运算能力等进行性能测试,为GPU通用计算的算法设计、实现和性能优化提供参考依据。 相似文献
4.
应用图形处理器(GPU)来加速粒子群优化(PSO)算法并行计算时,为突出其加速性能,经常有文献以恶化CPU端PSO算法性能为代价。为了科学比较GPU-PSO算法和CPU-PSO算法的性能,提出用\"有效加速比\"作为算法的性能指标。文中给出的评价方法不需要CPU和GPU端粒子数相同,将GPU并行算法与最优CPU串行算法的性能作比较,以加速收敛到目标精度为准则,在统一计算设备架构(CUDA)下对多个基准测试函数进行了数值仿真实验。结果表明,在GPU上大幅增加粒子数能够加速PSO算法收敛到目标精度,与CPU-PSO相比,获得了10倍以上的\"有效加速比\"。 相似文献
5.
针对传统的基于GPU的光线投射算法绘制效率较低的问题,利用CUDA架构的并行计算特性和对三维纹理的处理能力进行改进和优化.将体数据映射为三维纹理,利用CUDA三维数组进行存储与绑定,纹理拾取的浮点返回值利用线性滤波进行平滑.在传输函数的设计中引入中心差分梯度幅值增强对体数据边界面的绘制效果.每条光线的求交及颜色积累采用并行计算,按照由前向后进行颜色及不透明度累积.设置不透明度阈值,采用不透明度提前终止加速绘制.实验结果表明,绘制速度较传统的基于GPU算法有10%的速度提升,绘制效果也有很大的改善. 相似文献
6.
7.
基于CUDA的超声B模式成像 总被引:3,自引:0,他引:3
超声B模式成像是超声成像系统中最基本的成像模式,能够为临床诊断提供器官组织的解剖信息。 但是由于从聚焦的射频信号(RF,Radio-Frequency)到B模式图像的基带处理过程中涉及大量运算,为了得到高质量的B模式图像,现有的医疗系统在实际实现过程中通常依赖于复杂的硬件,这大大加大了实现难度及成本。为此提出了一种基于NVIDIA 公司统一计算设备架构(CUDA,Compute Unified Device Architecture)的超声B模式成像的并行实现,利用图形处理单元(GPU,Graphic Processing Unit)并行计算实现从RF到B模式图像过程中的卷积计算,正交解调,包络检测, 数据压缩及扫描转换等处理。 临床活体组织数据上的实验表明,针对由规模为191 * 9344的RF数据得到648 *512的B模式图像,基于CUDA的并行实现与基于CPU的实现相比,在保证得到相同质量的B模式图像的前提下,速度提高了69倍。 相似文献
8.
9.
10.
11.
12.
高分辨率显示设备的发展意味着需要高分辨率的图象与之匹配。本文通过GPU,实现了一种实时超分辨率,使分辨率较低的视频资料在高分辨率显示设备上有较好的显示效果。 相似文献
13.
二维扩散方程的GPU加速 总被引:1,自引:0,他引:1
近几年来,GPU因拥有比CPU更强大的浮点性能备受瞩目。NVIDIA推出的CUDA架构,使得GPU上的通用计算成为现实。本文将计算流体力学中Benchmark问题的二维扩散方程移植到GPU,并采用了全局存储和纹理存储两种方法。结果显示,当网格达到百万量级的时候,得到了34倍的加速。 相似文献
14.
自碰撞检测是织物实时模拟的瓶颈.利用最新的图形硬件特性,设计了织物模拟的自碰撞检测算法.该算法以质点包围球为基本计算单元,仅保存计算得到的第一次发生碰撞的信息,而不需要计算出所有的碰撞对.算法在CUDA平台上实现,通过对核函数的一次调用即可完成自碰撞检测,算法复杂度为O(n).将算法用于由大规模质点构成的织物模拟过程中,试验表明,算法的GPU实现比相应的CPU实现性能提高18倍以上,与两遍渲染算法相比,平均性能也提高了20%左右. 相似文献
15.
针对目前基于GPU的FIR算法速度低、扩展性差的缺点,提出一种高速的多通道FIR数字滤波的并行算法,并利用平衡并行运算负载的技术以及降低内存访问密度的方法进行加速.该算法采用矩阵乘法的并行运算技术在GPU上建立并行滤波模型,通过每个线程在单个指令周期内执行2个信号运算,实现了多通道信号的高速滤波.实验结果表明,在GTX260+平台上,采用文中算法的平均加速比达到了203,效率超过40%,并且具有更好的扩展性. 相似文献
16.
为了利用GPU强大的并行处理能力提高图像拷贝检测速度,提出一种基于GPU的图像拷贝检测方法.首先结合GPU的架构设计了尺度不变特征点提取算法——Harris-Hessian算法,通过在低尺度图像上检测特征点,在图像的一系列尺度空间中根据Hessian矩阵的行列式精确确定特征点的位置和尺度,显著地减少了像素级的计算量,并具有更好的并行性;在此基础上建立了图像拷贝检测系统,检测速度得到显著提升.实验结果表明,与基于CPU实现的传统算法相比,Harris-Hessian算法可以获得10~20倍的加速比,并可保证较高的检测精度.在11 250幅的图像库中,使用文中系统检测一幅640×480图像平均只需19.8 ms,并具有95%的正确率,满足了大规模数据下实时应用的需求. 相似文献
17.
GPU在海洋环流模式POP中的应用 总被引:1,自引:0,他引:1
在CUDA(Compute Unified Device Architecture)架构下将GPU(Graphic Processing Unit)计算首次应用到海洋环流模式POP(Parallel Ocean Program)中.测试结果表明:无论高分辨率还是低分辨率,GPU都能够提高海洋环流数值模式POP的计算速度,GPU加速比最低都在1.5倍以上,最高可以超过2.2倍;并且随着模式使用线程数目的增多,GPU的加速比在降低,但是GPU利用效率在增长. 相似文献
18.
在地震资料的处理应用中,逆时偏移等处理技术由于计算资源的需求量巨大,而不能在实际生产中被广泛采用。GPU及CUDA编程架构的引入大幅提高其运算性能,是解决类似技术应用的有效途径。同时,GPU独特的物理特性使得一些应用不仅不能提高性能,甚至使性能急剧下降。通过逆时偏移技术应用实例来说明GPU的加速效果,同时将其和常规流程进行对比和分析给出应用软件的GPU适用性评价方法。 相似文献
19.
图形处理器(Graphic Processing Unit),简称GPU,是针对多线程程序对吞吐量进行优化的处理器,在硬件设计上属于众核架构,非常适合于大规模并行计算任务。JPEG图像压缩作为计算密集型的矩阵数据运算,用GPU技术对JPEG算法进行实现,能充分发挥GPU的并行处理能力,极大提高编码效率。 相似文献