期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

唐定车刘任任谭建龙《计算机应用》2009,29(Z1)

BF算法是串匹配算法经典算法之一,但并不适合GPU这种并行体系结构.提出了基于统一计算设备架构(CUDA)架构的解决方案,通过对需要处理的数据增加一定比例的冗余信息,设计了适合CUDA计算数据的独立性特点的并行BF算法.实验结果表明,基于CUDA架构的并行串匹配算法比同等CPU算法获得约10倍的加速比.此外还对该算法性能的影响因子做了分析. 相似文献

2.

基于GPU的位并行多模式串匹配研究 总被引：1，自引：0，他引：1

下载免费PDF全文

赵光南吴承荣《计算机工程》2011,37(14):265-267

图形处理器(GPU)具有较强的单一运算能力及高度并行的体系结构。根据上述特点,选择基于位并行技术的多模式串匹配算法M-BNDM,将其移植到GPU上加以实现和优化。通过对需要处理的数据进行预处理,将串匹配的过程简化为更适合CUDA计算数据的位操作。对基于CUDA架构的并行串匹配算法的性能影响因子进行分析。实验结果表明,与同等CPU算法相比,该算法能够获得约十几倍的加速比。相似文献

3.

基于GPU的串匹配算法研究 总被引：7，自引：0，他引：7

张庆丹戴正华冯圣中孙凝晖《计算机应用》2006,26(7):1735-1737

BF算法是串匹配算法中最基础的算法，但它是串行算法，不适合图形处理器（Graphic Processing Unit, GPU）的体系结构。结合GPU的特殊体系结构，通过数据存取方式和计算策略的改进，充分利用了GPU的并行处理能力，从而基于GPU实现了BF算法。实验结果表明基于GPU的并行算法能够取得较好的加速比，同时也给出了在现有GPU架构上有效实现通用计算的瓶颈。相似文献

4.

基于CUDA的并行粒子群优化算法研究及实现

陈风田雨波杨敏《计算机科学》2014,41(9):263-268

应用图形处理器(GPU)来加速粒子群优化(PSO)算法并行计算时,为突出其加速性能,经常有文献以恶化CPU端PSO算法性能为代价。为了科学比较GPU-PSO算法和CPU-PSO算法的性能,提出用"有效加速比"作为算法的性能指标。文中给出的评价方法不需要CPU和GPU端粒子数相同,将GPU并行算法与最优CPU串行算法的性能作比较,以加速收敛到目标精度为准则,在统一计算设备架构(CUDA)下对多个基准测试函数进行了数值仿真实验。结果表明,在GPU上大幅增加粒子数能够加速PSO算法收敛到目标精度,与CPU-PSO相比,获得了10倍以上的"有效加速比"。相似文献

5.

CUDA下地质图像边缘检测算法并行优化

张晗钱育蓉侯海耀《计算机工程与设计》2019,40(3)

相似文献

6.

CUDA架构下的快速图像去噪 总被引：3，自引：2，他引：3

下载免费PDF全文

李军李艳辉陈双平《计算机工程与应用》2009,45(11):183-185

图像处理通常需要较大的计算量,其中图像去噪是经常使用的一种预处理算法,研究其快速算法具有重要意义。图形处理器具有强大的并行计算能力,但大部分时间处于闲置状态。统一计算设备架构提供了一种简单易用的开发环境,可利用图形处理器进行通用计算。提出了基于统一计算设备架构的快速图像去噪算法,可以利用GPU的计算能力,加快去噪过程,显著地减少计算时间。相似文献

7.

基于GPU的并行优化技术* 总被引：2，自引：2，他引：2

左颢睿张启衡徐勇赵汝进《计算机应用研究》2009,26(11):4115-4118

针对标准并行算法难以在图形处理器(GPU)上高效运行的问题,以累加和算法为例,基于Nvidia公司统一计算设备架构(CUDA)GPU介绍了指令优化、共享缓存冲突避免、解循环优化和线程过载优化四种优化方法。实验结果表明,并行优化能有效提高算法在GPU上的执行效率,优化后累加和算法的运算速度相比标准并行算法提高了约34倍,相比CPU串行实现提高了约70倍。相似文献

8.

CUDA平台下LISP2算法垃圾收集并行研究

下载免费PDF全文

张聪品吴长茂赵理莉《计算机工程与应用》2010,46(33):75-77

为了提高垃圾收集效率,降低垃圾收集耗费时间,提出一种基于LISP2算法的并行节点复制垃圾收集算法,给出了在CUDA环境下该算法的实现。实验结果显示,该算法在CUDA环境下能有效提高垃圾收集效率。相似文献

9.

基于CUDA的BP算法并行化与实例验证

孙香玉冯百明杨鹏斐《计算机工程与应用》2013,(23):31-34,51

CUDA是应用较广的GPU通用计算模型,BP算法是目前应用最广泛的神经网络模型之一。提出了用CUDA模型并行化BP算法的方法。用该方法训练BP神经网络,训练开始前将数据传到GPU,训练开始后计算隐含层和输出层的输入输出和误差,更新权重和偏倚的过程都在GPU上实现。将该方法用于手写数字图片训练练实验,与在四核CPU上的训练相比,加速比为6．12～8．17。分别用在CPU和GPU上训练得到的结果识别相同的测试集图片,GPU上的训练结果对图片的识别率比CPU上的高0．05％～0．22％。相似文献

10.

CUDA下单源最短路径算法并行优化

张晗钱育蓉王跃飞陈人和田宸玮《计算机工程与设计》2019,40(8)

相似文献

11.

基于CUDA的3G视频清晰度评估方法

下载免费PDF全文

胡慧丽陈庆奎庄松林《计算机工程》2011,37(18):264-265

针对传统视频清晰度评估方法实时性较差的问题,利用统一计算架构(CUDA)高度并行性的特点,提出一种基于CUDA的3G视频清晰度评估方法。实验结果表明,与传统的视频清晰度评估方法相比,该方法能在保证准确评估视频清晰度的同时缩短算法的执行时间,计算速度约是传统串行算法的30倍。相似文献

12.

面向众核GPU加速系统的网络编码并行化及优化

唐绍华《计算机工程与应用》2014,50(21):79-84

网络编码允许网络节点在数据存储转发的基础上参与数据处理,已成为提高网络吞吐量、均衡网络负载和提高网络带宽利用率的有效方法,但是网络编码的计算复杂性严重影响了系统性能。基于众核GPU加速的系统可以充分利用众核GPU强大的计算能力和有效利用GPU的存储层次结构来优化加速网络编码。基于CUDA架构提出了以片段并行的技术来加速网络编码和基于纹理Cache的并行解码方法。利用提出的方法实现了线性随机编码,同时结合体系结构对其进行优化。实验结果显示,基于众核GPU的网络编码并行化技术是行之有效的,系统性能提升显著。相似文献

13.

基于CUDA的邻近粒子搜索算法研究

刘丹陈捷捷《计算机工程与应用》2012,48(18):53-56

在粒子方法中,运用邻近粒子搜索算法可以快速获取每个粒子的邻近粒子信息。由于粒子方法模拟一个体系的行为所采用的粒子数据是十分庞大的,对计算机的运算速度提出了挑战。研究了GPU的计算能力和CUDA开发环境,利用GPU的并行多线程处理技术,提出了一种并行邻近粒子搜索算法。实验结果表明,基于CUDA的并行邻近粒子搜索算法,加快了邻近粒子搜索过程,显著地减少了计算时间,成功实现了硬件加速,可获取290以上的加速比,对大规模粒子系统呈现出高效的处理能力。相似文献

14.

GPU核函数细化研究

下载免费PDF全文

焦良葆陈瑞《计算机工程》2010,36(18):10-12

GPU上的并行算法效率依赖于核函数在流多处理器上的平均运行效率,基于此,分析GPU核的执行方式,以及网格、线程块和线程之间的关系,采用细化核函数的方法将光线跟踪算法进行细化。实验结果证明,核的大小设置和分布方向影响了线程块内部的一致性,核函数的细化能增加线程块中同时运行的线程捆的数量。相似文献

15.

基于GPU的光子映射并行化算法

贺怀清孙希栋《计算机应用》2012,32(7):1939-1942

针对串行情况下光子映射算法速度慢的问题,对光子映射算法并行化进行可行性分析,充分利用图像处理器(GPU)的统一设备计算架构(CUDA)的并行和计算能力,实现光子映射算法的并行化。同时针对算法中光子发射追踪阶段生成GPU线程数与光子数相同的方法的不足以及平均分配方法所造成的资源浪费等,提出线程之间协同工作的方法并采用动态平衡处理,使光子渲染速度提升了将近一倍。实验结果证明了多线程间协同工作及动态平衡相结合方法的有效性。相似文献

16.

基于CUDA的拉普拉斯边缘检测算法

下载免费PDF全文

孟小华刘坚强区业祥张庆丰《计算机工程》2012,38(18):190-193

拉普拉斯边缘检测算法常用于去除CCD天文图像中的宇宙射线噪声,但其串行算法计算复杂度较高。为此,分析拉普拉斯边缘检测算法的并行性,在统一计算设备架构(CUDA)并行编程环境下,提出一种基于CUDA的拉普拉斯边缘检测图形处理单元(GPU)并行算法。分割天文图像得到多幅子图,根据GPU的硬件配置设定Block和Grid的大小,将子图依次传输到显卡进行并行计算,传回主存后拼接得到完整的图像输出。实验结果表明,图像尺寸越大,该并行算法与串行算法相比具有的速度优势越大,可获得10倍以上的加速比。相似文献

17.

基于CUDA的地震数据相干体并行算法 总被引：5，自引：0，他引：5

吴连贵易瑜李肯立《计算机应用》2009,29(3):912-914

在地震探测解释方面,运用相干体技术可以清楚地识别断层和地层特征。由于相干体是通过三维地震数据体计算得到,传统方法难以满足计算需求。基于CUDA平台,提出了一种并行相干体算法,该算法可加速相干体算法中的矩阵相乘计算。理论分析和配有Intel Core2Due CPU和NVIDIA GeForce 8800 GT显卡的实验结果表明：基于GPU的并行相干体算法可取得理想的线性加速比,提高系统的计算效率。相似文献

18.

基于CUDA的尺度不变特征变换快速算法

下载免费PDF全文

田文徐帆王宏远周波《计算机工程》2010,36(8):219-221

针对尺度不变特征变换(SIFT)算法耗时多限制其应用范围的缺点,提出一种基于统一计算设备架构(CUDA)的尺度不变特征变换快速算法,分析其并行特性,在图像处理单元(GPU)的线程和内存模型方面对算法进行优化。实验证明,相对于CPU,算法速度提升了30~50倍,对640×480图像的处理速度达到每秒24帧,满足实时应用的需求。相似文献

19.

GPU上实现的向量点积的性能分析

郭雷刘进锋《计算机工程与应用》2012,48(2):201-202

CUDA是一种较为简便的利用GPU进行通用计算的技术。研究了GPU上基于CUDA的几种向量点积算法,比较、分析了每种算法的性能。实验表明,GPU上最快的算法比CPU上的算法快了约7倍。相似文献

20.

GPU加速的图像匹配技术 总被引：1，自引：0，他引：1

下载免费PDF全文

厉旭杰《计算机工程与应用》2012,48(2):173-176

传统的模板图像匹配算法,匹配速度较慢。应用GPU通用高性能编程技术实现了一种加速图像匹配算法的新方法。应用CUDA编程技术对图像匹配算法进行并行化改造。采用了四种不同的存储方案,在第四种存储方案中获得了43.5倍的加速比,并对四种不同的存储方案的性能进行了深入研究。相似文献