期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张繁王章野姚建吴韬彭群生《计算机辅助设计与图形学学报》2010,22(3)

针对生物化学计算中采用量子化学理论计算蛋白质分子场所带来的巨大计算量的问题,搭建起一个GPU集群系统,用来加速计算基于量子化学的蛋白质分子场.该系统采用消息传递并行编程环境(MPI)连接集群各结点,以开放多线程OpenMP编程标准作为多核CPU编程环境,以CUDA语言作为GPU编程环境,提出并实现了集群系统结点中GPU和多核CPU协同计算的并行加速架构优化设计.在保持较高计算精度的前提下,结合MPI,OpenMP和CUDA混合编程模式,大大提高了系统的计算性能,并对不同体系和规模的蛋白质分子场模拟进行了计算分析.与相应的CPU集群、GPU单机和CPU单机计算方法对比,该GPU集群大幅度地提高了高分辨率复杂蛋白质分子场模拟的计算效率,比CPU集群的平均计算加速比提高了7.5倍. 相似文献

2.

基于CUDA的热传导GPU并行算法研究

孟小华黄丛珊朱丽莎《计算机工程》2014,(5):41-44,48

在热传导算法中,使用传统的CPU串行算法或MPI并行算法处理大批量粒子时,存在执行效率低、处理时间长的问题。而图形处理单元(GPU)具有大数据量并行运算的优势,为此,在统一计算设备架构(CUDA)并行编程环境下,采用CPU和GPU协同合作的模式,提出并实现一个基于CUDA的热传导GPU并行算法。根据GPU硬件配置设定Block和Grid的大小,将粒子划分为若干个block,粒子输入到GPU显卡中并行计算,每一个线程执行一个粒子计算,并将结果传回CPU主存,由CPU计算出每个粒子的平均热流。实验结果表明,与CPU串行算法在时间效率方面进行对比,该算法在粒子数到达16 000时,加速比提高近900倍,并且加速比随着粒子数的增加而加速提高。相似文献

3.

基于GPU的可见光与红外图像融合快速实现

下载免费PDF全文

闫钧华杭谊青孙思佳《计算机工程》2013,(11):249-253

为利用统一计算设备架构（CUDA）强大的并行处理能力实现快速图像融合,提出一种适用于并行运算的图像融合算法,包括高斯滤波、直方图均衡、基于小波变换的图像融合。通过CUDA编程对以上算法进行实现,并将其与对应的CPU程序相比较,实验结果表明,图形处理单元（GPU）执行效率比CPU高出一个数量级,并且随着数据量的增加,GPU的加速比还会增大。相似文献

4.

基于GPU平台的二维离散余弦算法

刘峰施展《计算机工程与科学》2009,31(Z1)

本文介绍了GPU并行计算的优越性,并对基于GPU平台的开发框架和编程环境CUDA给予概述;在CUDA环境中开发DCT算法代码,实现了DCT算法代码从CPU平台向GPU平台的移植;并通过对比两个计算平台上DCT算法的计算耗时,分析了GPU计算平台的优越性。相似文献

5.

基于GPU的H.264并行解码优化

下载免费PDF全文

汪少锴李伟金燕华《计算机测量与控制》2018,26(7):276-281

H.264视频编码标准因其很好的压缩率而成为目前的主流标准之一;针对H.264解码复杂度提高、计算量增大的现状,根据GPU适合通用并行计算的特性,提出其基于GPU的并行解码优化。使用GPU对帧内预测与滤波器模块解码,CPU负责控制GPU以及对剩余部分解码。通过对帧内预测解码的分析,提出一种优化的帧内预测并行算法,经实验证明相比有优化前算法解码效率被提高20%;通过对滤波器模块的研究,提出一种滤波强度并行求取算法以及并行滤波执行算法,经实验证明滤波器的处理速度提升了30%,且相比原图像△PSNR最大为0.10,△SSIM为0.01。最终通过实验证明,使用GPU对视频解码的关键模块处理,能大大提高处理效率。相似文献

6.

基于CUDA 的Wu-Manber 多模式匹配算法 总被引：1，自引：0，他引：1

马计王国平杨明《计算机系统应用》2012,21(3):51-54,175

多模式匹配是计算机科学中最基本的问题,其应用在许多领域,在一些情形下也是比较耗时的。GPU拥有比CPU更强的并行计算能力,随着CUDA架构的推出,GPU用于通用计算领域的并行编程工作变得更加轻松。实现了基于CUDA架构的Wu-Manber多模式匹配算法,实验结果表明,相比传统串行算法而言,本文的实现获得了10倍以上的加速。相似文献

7.

异构平台下格子Boltzmann方法实现及性能分析

张丹丹徐莹徐磊《计算机科学》2012,39(4):296-298,303

对CPU+GPU异构平台下的多种并行编程模式进行了研究,并针对格子Boltzmann方法实现了CUDA,MPI+CUDA,MPI+OpenMP+CUDA多级并行算法。结果表明,算法具有较好的加速性能;提出的根据计算量比例参数调节CPU和GPU之间负载均衡的方法,对于在异构平台上实现多级并行处理及资源的有效利用具有一定的参考和应用价值。相似文献

8.

基于GPU的位并行多模式串匹配研究 总被引：1，自引：0，他引：1

下载免费PDF全文

赵光南吴承荣《计算机工程》2011,37(14):265-267

图形处理器(GPU)具有较强的单一运算能力及高度并行的体系结构。根据上述特点,选择基于位并行技术的多模式串匹配算法M-BNDM,将其移植到GPU上加以实现和优化。通过对需要处理的数据进行预处理,将串匹配的过程简化为更适合CUDA计算数据的位操作。对基于CUDA架构的并行串匹配算法的性能影响因子进行分析。实验结果表明,与同等CPU算法相比,该算法能够获得约十几倍的加速比。相似文献

9.

快速EZC-DCT地形压缩算法的并行优化

高保禄窦明亮张冰《计算机工程与设计》2018,(1):189-193

为能够在大规模地形实时渲染中提高渲染及数据压缩的速率,提出一种利用GPU并行优化的快速EZC-DCT地形压缩算法。采用二维快速DCT变换代替EZC-DCT算法中的DCT变换,在利用GPU对算法进行并行加速的基础之上,对算法的并行方案进行优化改进,更加有效地利用GPU强大的并行计算能力,分担CPU的负荷,快速完成相关计算。实验结果表明,该算法帧速率比原EZC-DCT方法提升约10个百分点,满足地形渲染的实时性要求。相似文献

10.

基于GPU加速的图像双向相似性计算

傅贤超《现代计算机》2013,(11)

针对双向相似性计算在CPU下串行计算效率低下,无法满足实际需求的问题,利用该计算中数据独立性的特点,应用CUDA编程模型实现基于GPU加速的图像双向相似性计算。与CPU相比,在392x300的分辨率实验下,该算法在GPU上可获得超过1200倍的加速比。相似文献

11.

并行时空处理模型下的快速N-body算法

下载免费PDF全文

王伟曾栩鸿王福焕傅丽丽曾国荪《计算机科学与探索》2011,5(11):1006-1013

图形处理器(graphic processing unit,GPU)的最新发展已经能够以低廉的成本提供高性能的通用计算。基于GPU的CUDA(compute unified device architecture)和OpenCL(open computing language)编程模型为程序员提供了充足的类似于C语言的应用程序接口(application programming interface,API),便于程序员发挥GPU的并行计算能力。采用图形硬件进行加速计算,通过一种新的GPU处理模型——并行时间空间模型,对现有GPU上的N-body实现进行了分析,从而提出了一种新的GPU上快速仿真N-body问题的算法,并在AMD的HD Radeon 5850上进行了实现。实验结果表明,相对于CPU上的实现,获得了400倍左右的加速;相对于已有GPU上的实现,也获得了2至5倍的加速。相似文献

12.

基于CUDA的梯级泵站调度算法实现

项武铭李雪巍《计算机与现代化》2018,(11):60

动态规划方法求解梯级泵站调度问题十分经典,但在计算上存在“维数灾难”问题,GPU并行计算技术能对重复性计算进行加速,提高算法计算性能。本文对梯级泵站调度问题进行动态规划方法分析,利用CUDA（统一计算设备架构）对调度算法进行改进,给出改进动态规划方法的算法实现,并比较不同计算规模下调度算法计算耗时。实验结果表明,基于CUDA改进动态规划方法实现的梯级泵站调度算法能够降低计算维度,在计算规模较大时,加速效果较好。相似文献

13.

基于GPU的遥感图像配准并行程序设计与存储优化

周海芳赵进《计算机研究与发展》2012,(Z1):281-286

遥感图像配准是遥感图像应用的一个重要处理步骤.随着遥感图像数据规模与遥感图像配准算法计算复杂度的增大,遥感图像配准面临着处理速度的挑战.最近几年,GPU计算能力得到极大提升,面向通用计算领域得到了快速发展.结合GPU面向通用计算领域的优势与遥感图像配准面临的处理速度问题,研究了GPU加速处理遥感图像配准的算法.选取计算量大计算精度高的基于互信息小波分解配准算法进行GPU并行设计,提出了GPU并行设计模型;同时选取GPU程序常用面向存储级的优化策略应用于遥感图像配准GPU程序,并利用CUDA(compute unified device architecture)编程语言在nVIDIA Tesla M2050GPU上进行了实验.实验结果表明,提出的并行设计模型与面向存储级的优化策略能够很好地适用于遥感图像配准领域,最大加速比达到了19.9倍.研究表明GPU通用计算技术在遥感图像处理领域具有广阔的应用前景. 相似文献

14.

基于CUDA技术的卷积神经网络识别算法

下载免费PDF全文

张佳康陈庆奎《计算机工程》2010,36(15):179-181

针对具有高浮点运算能力的流处理器设备GPU对神经网络的适用性问题,提出卷积神经网络的并行化识别算法,采用计算统一设备架构(CUDA)技术,并定义其上的并行化数据结构,描述计算任务到CUDA的映射机制。实验结果证明,在GTX200硬件架构的GPU上实现的并行识别算法的平均浮点运算能力峰值较CPU上串行算法提高了近60倍,更适用于神经网络的相关应用。相似文献

15.

光子映射在CUDA中的研究与实现 总被引：1，自引：0，他引：1

林其选王毅刚《计算机系统应用》2010,19(5):174-178

通过修改光子映射算法的实现过程,使得该算法能够通过CUDA完全运行在最新的GPU上,从而能够充分利用GPU强大的并行计算能力,加速光子映射的实现。光子映射在CUDA中的实现主要通过两个方面来完成：构建光子图和估计辐射能。同时为了提高对光子图中的光子信息的查找速度,采用了kd-tree结构来存储光子信息,使得可以通过KNN（K-Nearest Neighbor）快速搜索光子图。在所测试环境中,渲染速度是CPU中的近1O倍。相似文献

16.

基于CUDA架构的FFT并行计算研究

骆岩红 ;万国峰 ;王建华《自动化与仪器仪表》2014,(12):25-28

FFT（快速傅里叶变换）是基于提高DFT（离散傅里叶变换）计算的高效算法,它在众多科学和工程领域都得到了广泛的应用。自FFT算法出现以后,从早期的以降低复杂度到近年以来的大规模并行FFT计算,各种优化算法得到广泛的研究。在并行运算领域中,随着可编程的、并行化GPU的不断推广,特别是通用并行统一计算架构CUDA的出现,极大增强了GPU的计算能力,在编程和优化等方面都有显著地提升。鉴于此,本文在分析FFT算法实现的基础上,研究了一种适合GPU运算的FFT并行计算方法,并通过CUDA架构实现了FFT算法在GPU上的运算。该方法的引入在理论不计算数据传输的情况下,使一维FFT运算时间的复杂度由O（N logN2）可以降到O（N/rlogN2）。通过验证,本文提出的CUDA的并行FFT方法得到较好的加速效果,在精度计算上也符合实际的要求,从而证明了该方法的正确性和有效性。相似文献

17.

图形处理器空间插值并行算法的实现

下载免费PDF全文

赵艳伟程振林董慧方金云《中国图象图形学报》2012,17(4):575-581

空间插值是地理信息系统(GIS)空间分析中计算复杂且耗时的操作,因此无法满足实时性的要求。随着图形处理器(GPU)浮点计算能力的大幅提高,GPU通用计算已成为处理GIS领域内复杂计算的研究热点。为实时化一些传统低效的算法提供了良好的契机。利用GPU在并行计算上的优势,将反距离加权法插值算法映射到了统一计算设备架构(CUDA)并行编程架构。首先在GPU中建立二级索引使计算层次得到了合理的划分,然后利用多线程分块策略执行并行插值计算。最后通过实验表明,该方法的插值误差与CPU方法相比能控制在10-6数量级,并且在插值半径较大插值数据较多的情况下,该算法可达到40倍以上的加速比。充分证明了该方法的正确性及高效性。相似文献