期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

肖汉肖波冯娜杨锦锦《计算机与数字工程》2013,41(5)

作为应用软件模型和计算机硬件之间的桥梁,编程模型在计算机领域的重要性不言而喻.但随着具备细粒度并行计算能力的图形处理器(GPU)进入主流市场,与之相适应的编程模型发展却相对滞后.Nvidia在GeForce 8系列显卡上推出的统一计算设备架构(CUDA)技术,使得通用计算图形处理单元(GPGPU)从图形硬件流水线和高级绘制语言中解放出来,开发人员无须掌握图形学编程方法即可在单任务多数据模式(SIMD)下完成高性能并行计算.论文从特性、组成和并行架构等几个方面对CUDA并行计算模型进行了研究,充分表明基于GPU进行高性能并行计算,是适应目前大规模计算需求的一个重要发展途径. 相似文献

2.

基于CUDA的汇流分析并行算法的研究与实现* 总被引：2，自引：0，他引：2

赵向辉苗青付忠良苏畅李昕《计算机应用研究》2010,27(7):2445-2447

针对基于数字高程模型（DEM）生成流域等流时线的快速运算问题,提出了一种基于统一设备计算架构（CUDA）平台同时可发挥图形处理器（GPU）并行运算特性的汇流分析的快速并行算法。采用改进后的归并排序算法进行数据排序及新的内存分配策略和改进的并行算法进行汇流分析。用该并行算法和CPU上的串行算法, 对生成基于DEM的等流时线运算时间和矩阵乘法运算时间进行分析验证。实验结果表明,基于CUDA的汇流分析并行算法能提高系统的计算效率,具有较好的效果。相似文献

3.

基于图形处理器的通用计算模式* 总被引：4，自引：4，他引：0

王磊张春燕《计算机应用研究》2009,26(6):2356-2358

针对GPU图形处理的特点,分析其应用于通用计算的并行处理机制和数据映射,提出了一种GPU通用计算模式的映射机制和一般性设计方法,并针对GPU的吞吐量、数据流处理能力和基本数学运算能力等进行性能测试,为GPU通用计算的算法设计、实现和性能优化提供参考依据。相似文献

4.

基于CUDA的并行粒子群优化算法研究及实现

陈风田雨波杨敏《计算机科学》2014,41(9):263-268

应用图形处理器(GPU)来加速粒子群优化(PSO)算法并行计算时,为突出其加速性能,经常有文献以恶化CPU端PSO算法性能为代价。为了科学比较GPU-PSO算法和CPU-PSO算法的性能,提出用\"有效加速比\"作为算法的性能指标。文中给出的评价方法不需要CPU和GPU端粒子数相同,将GPU并行算法与最优CPU串行算法的性能作比较,以加速收敛到目标精度为准则,在统一计算设备架构(CUDA)下对多个基准测试函数进行了数值仿真实验。结果表明,在GPU上大幅增加粒子数能够加速PSO算法收敛到目标精度,与CPU-PSO相比,获得了10倍以上的\"有效加速比\"。相似文献

5.

一种改进的基于CUDA的纹理映射和光线投射结合的体绘制算法

朱奭常晋义《计算机应用研究》2015,32(6)

针对传统的基于GPU的光线投射算法绘制效率较低的问题,利用CUDA架构的并行计算特性和对三维纹理的处理能力进行改进和优化.将体数据映射为三维纹理,利用CUDA三维数组进行存储与绑定,纹理拾取的浮点返回值利用线性滤波进行平滑.在传输函数的设计中引入中心差分梯度幅值增强对体数据边界面的绘制效果.每条光线的求交及颜色积累采用并行计算,按照由前向后进行颜色及不透明度累积.设置不透明度阈值,采用不透明度提前终止加速绘制.实验结果表明,绘制速度较传统的基于GPU算法有10％的速度提升,绘制效果也有很大的改善. 相似文献

6.

基于CUDA的3G视频清晰度评估方法

胡慧丽陈庆奎庄松林《计算机工程》2011,37(18):264-265

针对传统视频清晰度评估方法实时性较差的问题,利用统一计算架构(CUDA)高度并行性的特点,提出一种基于CUDA的3G视频清晰度评估方法。实验结果表明,与传统的视频清晰度评估方法相比,该方法能在保证准确评估视频清晰度的同时缩短算法的执行时间,计算速度约是传统串行算法的30倍。相似文献

7.

基于CUDA的超声B模式成像 总被引：3，自引：0，他引：3

夏春兰石丹刘东权《计算机应用研究》2011,28(6):2011-2015

超声B模式成像是超声成像系统中最基本的成像模式,能够为临床诊断提供器官组织的解剖信息。但是由于从聚焦的射频信号（RF,Radio-Frequency）到B模式图像的基带处理过程中涉及大量运算,为了得到高质量的B模式图像,现有的医疗系统在实际实现过程中通常依赖于复杂的硬件,这大大加大了实现难度及成本。为此提出了一种基于NVIDIA 公司统一计算设备架构（CUDA,Compute Unified Device Architecture）的超声B模式成像的并行实现,利用图形处理单元（GPU,Graphic Processing Unit）并行计算实现从RF到B模式图像过程中的卷积计算,正交解调,包络检测, 数据压缩及扫描转换等处理。临床活体组织数据上的实验表明,针对由规模为191 * 9344的RF数据得到648 *512的B模式图像,基于CUDA的并行实现与基于CPU的实现相比,在保证得到相同质量的B模式图像的前提下,速度提高了69倍。相似文献

8.

CUDA平台下的实时超声扫描转换

王伟民王合闯王华军《计算机应用》2011,31(10):2760-2763

为了克服传统医学超声扫描转换不能实时的缺陷,实时超声扫描转换算法利用计算统一设备架构(CUDA)技术,通过分配最优的线程结构、合理规划中央处理器(CPU)和图形处理器(GPU)之间的数据传输方式和计算任务的划分,提高了算法的吞吐量,满足了实时性。传统CPU算法和3种GPU算法的实验结果对比显示,GPU处理3121×936大小的图片,帧速率可达746fps,并行算法加速比可达300以上。相似文献

9.

基于CUDA的矩阵乘法和FFT性能测试 总被引：2，自引：7，他引：2

肖江胡柯良邓元勇《计算机工程》2009,35(10):7-10

针对NVIDIA公司的CUDA技术用Geforce8800GT在Visual Studi02008环境下进行测试,从程序运行时间比较判断CUBLAS库、CUDA内核程序、CUDA驱动API、C循环程序与Intel MKL库以及FFTW库与CUFFT库运行响应的差异。测试结果表明,在大规模矩阵乘法和快速傅里叶变换的应用方面,相对于CPU,利用GPU运算性能可提高25倍以上。相似文献

10.

基于CUDA的位并行近似串匹配算法

崔文科徐克付李娜娜胡玥《计算机工程》2012,38(22):267-270

为满足文本检索、计算生物学等领域海量数据匹配对高性能计算的要求,提出一种基于计算统一设备架构(CUDA)的位并行近似串匹配算法。结合图形处理器(GPU)的高并行计算结构及存储带宽特性,通过优化数据存储方式,实现并行化动态规划矩阵算法(BPM)的加速,并对加速性能进行对比测试。实验结果表明,BPM算法通过GPU加速能获得20倍左右的加速比。相似文献

11.

CUDA高性能计算并行编程 总被引：1，自引：0，他引：1

李波赵华成张敏芳《微型电脑应用》2009,25(9):55-57,64

针对GPU的计算处理能力,提出了用GPU解决高性能计算的问题,其中包括详细描述CUDA编程的方法、优化处理原则等。采用了对比实验,结果表明了CUDA在并行计算上有很强的能力,为GPU的通用计算提供了新的方法和思路。相似文献

12.

基于GPU的实时超分辨率算法实现

章拓王知衍《广东电脑与电讯》2009,(3)

高分辨率显示设备的发展意味着需要高分辨率的图象与之匹配。本文通过GPU,实现了一种实时超分辨率,使分辨率较低的视频资料在高分辨率显示设备上有较好的显示效果。相似文献

13.

二维扩散方程的GPU加速 总被引：1，自引：0，他引：1

董廷星王龙迟学斌《计算机工程与科学》2009,31(11)

近几年来,GPU因拥有比CPU更强大的浮点性能备受瞩目。NVIDIA推出的CUDA架构,使得GPU上的通用计算成为现实。本文将计算流体力学中Benchmark问题的二维扩散方程移植到GPU,并采用了全局存储和纹理存储两种方法。结果显示,当网格达到百万量级的时候,得到了34倍的加速。相似文献

14.

图形硬件加速的织物自碰撞检测算法

纪传舜刘卉《计算机应用与软件》2010,27(9)

自碰撞检测是织物实时模拟的瓶颈.利用最新的图形硬件特性,设计了织物模拟的自碰撞检测算法.该算法以质点包围球为基本计算单元,仅保存计算得到的第一次发生碰撞的信息,而不需要计算出所有的碰撞对.算法在CUDA平台上实现,通过对核函数的一次调用即可完成自碰撞检测,算法复杂度为O(n).将算法用于由大规模质点构成的织物模拟过程中,试验表明,算法的GPU实现比相应的CPU实现性能提高18倍以上,与两遍渲染算法相比,平均性能也提高了20%左右. 相似文献

15.

GPU实现的高速FIR数字滤波算法

陈孝良邓仰东程晓斌李晓东田静《计算机辅助设计与图形学学报》2010,22(9):1435-1442

针对目前基于GPU的FIR算法速度低、扩展性差的缺点,提出一种高速的多通道FIR数字滤波的并行算法,并利用平衡并行运算负载的技术以及降低内存访问密度的方法进行加速.该算法采用矩阵乘法的并行运算技术在GPU上建立并行滤波模型,通过每个线程在单个指令周期内执行2个信号运算,实现了多通道信号的高速滤波.实验结果表明,在GTX260+平台上,采用文中算法的平均加速比达到了203,效率超过40%,并且具有更好的扩展性. 相似文献

16.

基于GPU的快速图像拷贝检测

谢洪涛高科张勇东李锦涛刘毅志《计算机辅助设计与图形学学报》2010,22(9):1483-1490

为了利用GPU强大的并行处理能力提高图像拷贝检测速度,提出一种基于GPU的图像拷贝检测方法.首先结合GPU的架构设计了尺度不变特征点提取算法——Harris-Hessian算法,通过在低尺度图像上检测特征点,在图像的一系列尺度空间中根据Hessian矩阵的行列式精确确定特征点的位置和尺度,显著地减少了像素级的计算量,并具有更好的并行性;在此基础上建立了图像拷贝检测系统,检测速度得到显著提升.实验结果表明,与基于CPU实现的传统算法相比,Harris-Hessian算法可以获得10~20倍的加速比,并可保证较高的检测精度.在11 250幅的图像库中,使用文中系统检测一幅640×480图像平均只需19.8 ms,并具有95%的正确率,满足了大规模数据下实时应用的需求. 相似文献

17.

GPU在海洋环流模式POP中的应用 总被引：1，自引：0，他引：1

宋振亚刘海行雷晓燕赵伟《计算机应用与软件》2010,27(10)

在CUDA(Compute Unified Device Architecture)架构下将GPU(Graphic Processing Unit)计算首次应用到海洋环流模式POP(Parallel Ocean Program)中.测试结果表明:无论高分辨率还是低分辨率,GPU都能够提高海洋环流数值模式POP的计算速度,GPU加速比最低都在1.5倍以上,最高可以超过2.2倍;并且随着模式使用线程数目的增多,GPU的加速比在降低,但是GPU利用效率在增长. 相似文献

18.

GPU加速逆时偏移技术的应用和分析

张向阳冯超敏文玲《计算机应用与软件》2012,29(8):223-225

在地震资料的处理应用中,逆时偏移等处理技术由于计算资源的需求量巨大,而不能在实际生产中被广泛采用。GPU及CUDA编程架构的引入大幅提高其运算性能,是解决类似技术应用的有效途径。同时,GPU独特的物理特性使得一些应用不仅不能提高性能,甚至使性能急剧下降。通过逆时偏移技术应用实例来说明GPU的加速效果,同时将其和常规流程进行对比和分析给出应用软件的GPU适用性评价方法。相似文献

19.

基于GPU的JPEG压缩算法实现

李杰刘灏马恩财刘明锋《数字社区&智能家居》2014,(26):6158-6160

图形处理器(Graphic Processing Unit),简称GPU,是针对多线程程序对吞吐量进行优化的处理器,在硬件设计上属于众核架构,非常适合于大规模并行计算任务。JPEG图像压缩作为计算密集型的矩阵数据运算,用GPU技术对JPEG算法进行实现,能充分发挥GPU的并行处理能力,极大提高编码效率。相似文献

20.

CUDA兼容图形卡作为BLAST序列比对的有效硬件加速器研究

胡娅黄理灿姚晖《工业控制计算机》2011,24(1):63-64

提出了在硬件产品上运行BLAST算法的方案,认为可以使BLAST达到目前为止最快的速度。它是在由NVIDIA发布的CUDA编程环境上执行的。做了详尽的模拟试验,在一个3GHz英特尔奔腾IV处理器上运行,比较了BLAST和SSEARCH的执行。方案与最新公布的GPU执行情况和一个SIMD解决方案进行了比较,测试表明,实现了在硬件产品上获得更大速度的目的,也降低了大规模比对的执行成本。相似文献