共查询到16条相似文献,搜索用时 62 毫秒
1.
唐绍华 《计算机工程与应用》2014,50(21):79-84
网络编码允许网络节点在数据存储转发的基础上参与数据处理,已成为提高网络吞吐量、均衡网络负载和提高网络带宽利用率的有效方法,但是网络编码的计算复杂性严重影响了系统性能。基于众核GPU加速的系统可以充分利用众核GPU强大的计算能力和有效利用GPU的存储层次结构来优化加速网络编码。基于CUDA架构提出了以片段并行的技术来加速网络编码和基于纹理Cache的并行解码方法。利用提出的方法实现了线性随机编码,同时结合体系结构对其进行优化。实验结果显示,基于众核GPU的网络编码并行化技术是行之有效的,系统性能提升显著。 相似文献
2.
字符串匹配算法的应用非常广泛,在信息检索、信息安全等领域都起着关键的作用。近年来,由于GPU通用计算的高速发展,且GPU具有很强的并行计算能力和很高的存储器访问带宽,利用GPU来加速字符串匹配算法吸引了越来越多的关注。提出的改进的AC模式匹配算法,在对前人工作的基础上,进一步消除了output表的存储,将纹理存储器中的查表操作转换为数值比较操作,与改进前算法相比,速度提高了80%以上;进一步的,引入了多个可变参数,提高AC算法的有效数据匹配率,并优化线程块的大小,优化后的算法与采用一种特殊匹配方式的高效的PFAC算法相比,速度提高了9%以上。 相似文献
3.
CUDA是一种较为简便的利用GPU进行通用计算的技术。研究了GPU上基于CUDA的几种向量点积算法,比较、分析了每种算法的性能。实验表明,GPU上最快的算法比CPU上的算法快了约7倍。 相似文献
4.
5.
为了提高垃圾收集效率,降低垃圾收集耗费时间,提出一种基于LISP2算法的并行节点复制垃圾收集算法,给出了在CUDA环境下该算法的实现。实验结果显示,该算法在CUDA环境下能有效提高垃圾收集效率。 相似文献
6.
为提高协同过滤算法的可伸缩性, 加快其运行速度, 提出了一种基于GPU(graphic processing unit)的并行协同过滤算法来实现高速并行处理。GPU的运算模式采用单指令多数据流, 适用于逻辑性弱、数据量巨大的运算, 而这正是协同过滤算法所具有的特点。使用统一计算设备框架(compute unified device architecture, CUDA)实现了此协同过滤算法。实验表明, 在中低端的GPU上该算法与在高端的四核CPU上的协同过滤算法相比, 其加速比达到40倍以上, 显著地提高了算法的可伸缩性, 而算法在准确率方面也有优秀的表现。 相似文献
7.
压缩技术被广泛应用于数据存储和传输中,然而由于其内在的串行特性,大多数已有的基于字典的压缩与解压缩算法被设计在CPU上串行执行。为了探究使用图形处理器(graphic processing unit,GPU)对压缩与解压缩过程潜在性能的提升,结合合并内存访问与并行组装的技术,基于CUDA(compute unified device archi-tecture)平台研究了两种并行压缩与解压缩方法:基于字典的无状态压缩和基于字典的LZW压缩。实验结果表明,与传统的单核实现比较,所提方法能够显著改善已有的基于字典的串行压缩与解压缩算法的性能。 相似文献
8.
Nvidia在GeForce 8系列显卡上推出的CUDA(统一计算设备架构)技术使GPU通用计算(GPGPU)从图形硬件流水线和高级绘制语言中解放出来,开发人员无须掌握图形学编程方法即可在单任务多数据模式(SIMD)下完成高性能并行计算。研究了CUDA的设计思想和编程方式,改进了基于双三次B样条曲面的图像缩放算法,使用多个线程将计算中耗时的B样条重采样部分改造成SIMD模式,并分别采用CUDA中全局存储器和共享存储器策略在CUDA上完成图像缩放的全过程。实验结果表明,基于CUDA的B样条曲面并行插值方法成功实现了硬件加速,相对于CPU上运行的B样条缩放算法,其执行效率明显提高,易于扩展,对于大规模数据处理呈现出良好的实时处理能力。 相似文献
9.
声辐射力弹性成像是一种新的测量组织硬度的超声成像方法。不同于其他超声组织弹性成像方法,声辐射力弹性成像能够定量测量组织的弹性模量数值,并且具有对操作者经验依赖性低的特点。然而,由于成像算法数据处理量大,运算时间长,声辐射力弹性成像还无法进行准实时的二维成像。为了获得实时的二维声辐射力弹性图像,提出并实现了一种适合于在GPU上并行计算的声辐射力弹性成像算法。通过与运行在CPU上的原始声辐射力弹性成像算法进行对比,证明在GPU上实现的算法大幅度地提高了运算速度。在自制弹性仿体上,比较了基于GPU和CPU两种算法所成的二维弹性分布图像的质量,结果证明两者的图像质量没有明显差异。 相似文献
10.
11.
图像处理通常需要较大的计算量,其中图像去噪是经常使用的一种预处理算法,研究其快速算法具有重要意义。图形处理器具有强大的并行计算能力,但大部分时间处于闲置状态。统一计算设备架构提供了一种简单易用的开发环境,可利用图形处理器进行通用计算。提出了基于统一计算设备架构的快速图像去噪算法,可以利用GPU的计算能力,加快去噪过程,显著地减少计算时间。 相似文献
12.
基于统一计算设备架构(CUDA)对图形处理器(GPU)下的并行粒子群优化(PSO)算法作改进研究。根据CUDA的硬件体系结构特点,可知Block是串行执行的,线程束(Warp)才是流多处理器(SM)调度和执行的基本单位。为了充分利用Block中线程的并行性,提出基于自适应线程束的GPU并行PSO算法:将粒子的维度和线程相对应;利用GPU的Warp级并行,根据维度的不同自适应地将每个粒子与一个或多个Warp相对应;自适应地将一个或多个粒子与每个Block相对应。与已有的粗粒度并行方法(将每个粒子和线程相对应)以及细粒度并行方法(将每个粒子和Block相对应)进行了对比分析,实验结果表明,所提出的并行方法相对前两种并行方法,CPU加速比最多提高了40。 相似文献
13.
GPU加速的图像匹配技术 总被引:1,自引:0,他引:1
厉旭杰 《计算机工程与应用》2012,48(2):173-176
传统的模板图像匹配算法,匹配速度较慢。应用GPU通用高性能编程技术实现了一种加速图像匹配算法的新方法。应用CUDA编程技术对图像匹配算法进行并行化改造。采用了四种不同的存储方案,在第四种存储方案中获得了43.5倍的加速比,并对四种不同的存储方案的性能进行了深入研究。 相似文献
14.
针对串行情况下光子映射算法速度慢的问题,对光子映射算法并行化进行可行性分析,充分利用图像处理器(GPU)的统一设备计算架构(CUDA)的并行和计算能力,实现光子映射算法的并行化。同时针对算法中光子发射追踪阶段生成GPU线程数与光子数相同的方法的不足以及平均分配方法所造成的资源浪费等,提出线程之间协同工作的方法并采用动态平衡处理,使光子渲染速度提升了将近一倍。实验结果证明了多线程间协同工作及动态平衡相结合方法的有效性。 相似文献
15.
描述了矩阵乘法在CPU上的三种实现方法和在GPU上基于CUDA架构的四种实现方法,分析了高性能方法的原由,发现它们的共同特点都是合理地组织数据并加以利用,这样能有效地减少存取开销,极大地提高算法的速度。其中CPU上的最优实现方法比普通算法快了200多倍,GPU上的最优实现方法又比CPU上的最优实现方法快了约6倍。 相似文献