期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

曾博雷友诚王丛知邱维宝冯歌曾成志杨戈郑海荣《计算机工程与应用》2015,51(18):249-254

声辐射力弹性成像是一种新的测量组织硬度的超声成像方法。不同于其他超声组织弹性成像方法,声辐射力弹性成像能够定量测量组织的弹性模量数值,并且具有对操作者经验依赖性低的特点。然而,由于成像算法数据处理量大,运算时间长,声辐射力弹性成像还无法进行准实时的二维成像。为了获得实时的二维声辐射力弹性图像,提出并实现了一种适合于在GPU上并行计算的声辐射力弹性成像算法。通过与运行在CPU上的原始声辐射力弹性成像算法进行对比,证明在GPU上实现的算法大幅度地提高了运算速度。在自制弹性仿体上,比较了基于GPU和CPU两种算法所成的二维弹性分布图像的质量,结果证明两者的图像质量没有明显差异。相似文献

2.

CUDA平台下LISP2算法垃圾收集并行研究

下载免费PDF全文

张聪品吴长茂赵理莉《计算机工程与应用》2010,46(33):75-77

为了提高垃圾收集效率,降低垃圾收集耗费时间,提出一种基于LISP2算法的并行节点复制垃圾收集算法,给出了在CUDA环境下该算法的实现。实验结果显示,该算法在CUDA环境下能有效提高垃圾收集效率。相似文献

3.

GPU上实现的向量点积的性能分析

郭雷刘进锋《计算机工程与应用》2012,48(2):201-202

CUDA是一种较为简便的利用GPU进行通用计算的技术。研究了GPU上基于CUDA的几种向量点积算法,比较、分析了每种算法的性能。实验表明,GPU上最快的算法比CPU上的算法快了约7倍。相似文献

4.

基于CUDA的超声B模式成像 总被引：3，自引：0，他引：3

夏春兰石丹刘东权《计算机应用研究》2011,28(6):2011-2015

超声B模式成像是超声成像系统中最基本的成像模式,能够为临床诊断提供器官组织的解剖信息。但是由于从聚焦的射频信号（RF,Radio-Frequency）到B模式图像的基带处理过程中涉及大量运算,为了得到高质量的B模式图像,现有的医疗系统在实际实现过程中通常依赖于复杂的硬件,这大大加大了实现难度及成本。为此提出了一种基于NVIDIA 公司统一计算设备架构（CUDA,Compute Unified Device Architecture）的超声B模式成像的并行实现,利用图形处理单元（GPU,Graphic Processing Unit）并行计算实现从RF到B模式图像过程中的卷积计算,正交解调,包络检测, 数据压缩及扫描转换等处理。临床活体组织数据上的实验表明,针对由规模为191 * 9344的RF数据得到648 *512的B模式图像,基于CUDA的并行实现与基于CPU的实现相比,在保证得到相同质量的B模式图像的前提下,速度提高了69倍。相似文献

5.

三种GPU并行的自适应邻域模拟退火算法

下载免费PDF全文

林敏钟一文《计算机工程与应用》2015,51(22):70-76

提出了三种新的GPU并行的自适应邻域模拟退火算法,分别是GPU并行的遗传-模拟退火算法,多条马尔可夫链并行的退火算法,基于BLOCK分块的GPU并行模拟退火算法,并通过对GPU端的程序采取合并内存访问,避免bank冲突,归约法等方式进一步提升了性能。实验中选取了11个典型的基准函数,实验结果证明这三种GPU并行退火算法比nonu-SA算法具有更好的精度和更快的收敛速度。相似文献

6.

基于CUDA的图像匹配算法

周冰园陈庆奎高丽萍秦川《计算机工程与应用》2015,51(12):165-170

为解决目前已有的图像匹配算法不适用于对实时性要求很强的应用,提出了PLS（Partial Least Squares）与余弦定理相结合的并行化图像匹配算法。该算法在CUDA架构下,对图像矩阵分块,分块后每个小块图像存入共享存储器处理并提取每个小块图像特征,通过合并后图像特征采用余弦定理计算图像的相似度,从而找出匹配图像。实验表明,CUDA架构下可以实现图像的并行匹配,与CPU上串行匹配相比,时效性提高了百倍以上。相似文献

7.

基于CUDA架构的三维CPML-FDTD并行方法

下载免费PDF全文

胡媛李康孔凡敏杜刘革《计算机工程与应用》2011,47(25):220-223

为解决时域有限差分（FDTD）算法应用于电大尺寸目标仿真的巨大耗时问题,应用FDTD算法的并行特性和通用图形处理器（GPGPU）技术,实现了一种基于计算统一设备架构（CUDA）的三维FDTD并行计算方法,采用了时域卷积完全匹配层（CPML）吸收边界条件模拟开域空间,对不同网格数目标仿真计算。进一步结合FDTD算法和CUDA的特点进行了优化,当计算空间元胞数在十万数量级及以上时,优化前后GPU运算相对于同时期的CPU分别可获得10和25倍以上的加速,结果表明该方法较适合用于实际电磁问题的仿真。相似文献

8.

基于GPU的AC模式匹配改进算法

下载免费PDF全文

汪宏王鹏《计算机工程与应用》2015,51(18):7-12

字符串匹配算法的应用非常广泛,在信息检索、信息安全等领域都起着关键的作用。近年来,由于GPU通用计算的高速发展,且GPU具有很强的并行计算能力和很高的存储器访问带宽,利用GPU来加速字符串匹配算法吸引了越来越多的关注。提出的改进的AC模式匹配算法,在对前人工作的基础上,进一步消除了output表的存储,将纹理存储器中的查表操作转换为数值比较操作,与改进前算法相比,速度提高了80%以上;进一步的,引入了多个可变参数,提高AC算法的有效数据匹配率,并优化线程块的大小,优化后的算法与采用一种特殊匹配方式的高效的PFAC算法相比,速度提高了9%以上。相似文献

9.

面向众核GPU加速系统的网络编码并行化及优化

唐绍华《计算机工程与应用》2014,50(21):79-84

网络编码允许网络节点在数据存储转发的基础上参与数据处理,已成为提高网络吞吐量、均衡网络负载和提高网络带宽利用率的有效方法,但是网络编码的计算复杂性严重影响了系统性能。基于众核GPU加速的系统可以充分利用众核GPU强大的计算能力和有效利用GPU的存储层次结构来优化加速网络编码。基于CUDA架构提出了以片段并行的技术来加速网络编码和基于纹理Cache的并行解码方法。利用提出的方法实现了线性随机编码,同时结合体系结构对其进行优化。实验结果显示,基于众核GPU的网络编码并行化技术是行之有效的,系统性能提升显著。相似文献

10.

基于CUDA的邻近粒子搜索算法研究

刘丹陈捷捷《计算机工程与应用》2012,48(18):53-56

在粒子方法中,运用邻近粒子搜索算法可以快速获取每个粒子的邻近粒子信息。由于粒子方法模拟一个体系的行为所采用的粒子数据是十分庞大的,对计算机的运算速度提出了挑战。研究了GPU的计算能力和CUDA开发环境,利用GPU的并行多线程处理技术,提出了一种并行邻近粒子搜索算法。实验结果表明,基于CUDA的并行邻近粒子搜索算法,加快了邻近粒子搜索过程,显著地减少了计算时间,成功实现了硬件加速,可获取290以上的加速比,对大规模粒子系统呈现出高效的处理能力。相似文献

11.

CUDA架构下的快速图像去噪 总被引：3，自引：2，他引：3

下载免费PDF全文

李军李艳辉陈双平《计算机工程与应用》2009,45(11):183-185

图像处理通常需要较大的计算量,其中图像去噪是经常使用的一种预处理算法,研究其快速算法具有重要意义。图形处理器具有强大的并行计算能力,但大部分时间处于闲置状态。统一计算设备架构提供了一种简单易用的开发环境,可利用图形处理器进行通用计算。提出了基于统一计算设备架构的快速图像去噪算法,可以利用GPU的计算能力,加快去噪过程,显著地减少计算时间。相似文献

12.

GPU加速的图像匹配技术 总被引：1，自引：0，他引：1

厉旭杰《计算机工程与应用》2012,48(2):173-176

传统的模板图像匹配算法,匹配速度较慢。应用GPU通用高性能编程技术实现了一种加速图像匹配算法的新方法。应用CUDA编程技术对图像匹配算法进行并行化改造。采用了四种不同的存储方案,在第四种存储方案中获得了43.5倍的加速比,并对四种不同的存储方案的性能进行了深入研究。相似文献

13.

几种CUDA加速高斯滤波算法的比较

刘进锋《计算机工程与应用》2013,(23):14-18,30

目前已有几种CUDA加速的图像高斯滤波算法,但这些算法有的描述不清楚,也没有人对它们的性能进行详尽的比较,这给理解及应用带来了困难。描述了几种CUDA加速的图像高斯滤波算法,包括直观的实现方式、使用共享内存的分离滤波器方法、使用纹理内存的分离滤波器方法、基于CUFFT的卷积滤波以及递归高斯滤波器。强调了这些算法的核心思想,比较了它们的时间复杂度,通过实验对它们的性能进行了分析。相似文献

14.

CPU与GPU上几种矩阵乘法的比较与分析 总被引：1，自引：0，他引：1

下载免费PDF全文

刘进锋郭雷《计算机工程与应用》2011,47(19):9-11

描述了矩阵乘法在CPU上的三种实现方法和在GPU上基于CUDA架构的四种实现方法,分析了高性能方法的原由,发现它们的共同特点都是合理地组织数据并加以利用,这样能有效地减少存取开销,极大地提高算法的速度。其中CPU上的最优实现方法比普通算法快了200多倍,GPU上的最优实现方法又比CPU上的最优实现方法快了约6倍。相似文献

15.

基于CUDA的地震数据相干体并行算法 总被引：5，自引：0，他引：5

吴连贵易瑜李肯立《计算机应用》2009,29(3):912-914

在地震探测解释方面,运用相干体技术可以清楚地识别断层和地层特征。由于相干体是通过三维地震数据体计算得到,传统方法难以满足计算需求。基于CUDA平台,提出了一种并行相干体算法,该算法可加速相干体算法中的矩阵相乘计算。理论分析和配有Intel Core2Due CPU和NVIDIA GeForce 8800 GT显卡的实验结果表明：基于GPU的并行相干体算法可取得理想的线性加速比,提高系统的计算效率。相似文献

16.

CUDA平台下的实时超声扫描转换

王伟民王合闯王华军《计算机应用》2011,31(10):2760-2763

为了克服传统医学超声扫描转换不能实时的缺陷,实时超声扫描转换算法利用计算统一设备架构(CUDA)技术,通过分配最优的线程结构、合理规划中央处理器(CPU)和图形处理器(GPU)之间的数据传输方式和计算任务的划分,提高了算法的吞吐量,满足了实时性。传统CPU算法和3种GPU算法的实验结果对比显示,GPU处理3121×936大小的图片,帧速率可达746fps,并行算法加速比可达300以上。相似文献

17.

GPU加速希尔加解密方法的研究 总被引：1，自引：1，他引：0

下载免费PDF全文

刘丹赵广辉钟珞《计算机工程与应用》2010,46(18):49-51

GPU有效地利用了数量巨大的晶体管制造大量的处理单元,适用于处理单任务多数据（SIMD）的计算任务。研究了GPU的体系结构及CUDA的编程模式,改进了基于CPU的希尔加解密方法,使用多个线程将计算中耗时的矩阵相乘部分改造成SIMD模式,并分析了线程块内线程数对加速比的影响。实验结果表明,基于GPU的并行矩阵相乘的希尔加解密方法成功实现了硬件加速,相对于CPU上运行的希尔加解密方法,其执行效率明显提高,可获取12倍以上的加速,并易于扩展,对大规模数据加密和解密处理呈现出高效的处理能力。相似文献