共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
GIST特征提取的异构并发流计算实现 总被引:1,自引:0,他引:1
针对图像GIST全局特征提取算法的计算任务,实现了CPU+GPU异构协同计算与优化:使用CPU完成图像量化、线性延拓等小计算量、不规则的数据运算,使用GPU完成滤波、Gabor特征提取、降维等计算密集、高度并行的数据运算。面向图像序列的计算扩展,在CPU端引入线程池技术,通过每个线程都绑定一个CUDA流处理一幅图像的方法,实现了多幅图像并发流处理和流内数据传输延时的隐藏;利用线程池技术提供线程预创建、资源预分配及根据资源消耗情况的线程数量动态增减等方法,提高了CPU对GPU计算资源的调度使用效率。实验结果表明,在保证同等精度的前提下,基于异构计算平台的图像GIST特征提取方法相比传统CPU平台达到8.35~9.31倍的加速比,在使用线程池之后算法处理图像序列数据时速度进一步提升10.0%~37.2%。 相似文献
3.
群体仿真中个体从环境中查找相关对象时会导致较高的时间复杂度。要使大规模群体能够实时仿真,必须降低模型运算的时间复杂度或者提高计算平台的能力。通过对Biods模型为典型案例进行研究,提出一种基于统一计算架构(CUDA)的大规模群体行为实时仿真并行实现及优化的方法。实现中将个体与GPU逻辑线程一一对应,通过将仿真环境离散化来提高相关个体查找的效率,通过并行化基数排序法将个体信息组织成具有空间局部性的数组,提高图形处理器(GPU)内存带宽的利用率。通过实验验证了该方法将仿真个体的数量提升到CPU方法的约7.3倍。 相似文献
4.
CUDA架构下H.264快速去块滤波算法 总被引:1,自引:0,他引:1
针对H.264/AVC视频编码标准中去块滤波器运算复杂度高、耗时巨大这一难题,提出了一种基于NVIDIA计算统一设备架构(CUDA)平台的H.264并行快速去块滤波算法,介绍了CUDA平台硬件结构特点与软件开发流程,根据图形处理器(GPU)的并发结构特点,对BS判定与滤波计算进行了并行优化,降低了算法复杂度,利用共享内存提高了数据访问速率,实现了去块滤波器的并行处理。实验结果表明,在图像质量基本不变的情况下,GPU算法能够明显提高运算速度,平均加速比在20倍左右,取得了良好的效果。 相似文献
5.
6.
7.
编写实现了六方点阵中拉普拉斯模型的随机行走雪花生长的CUDA(Compute Unified Device Architecture)程序,分析了GPU(Graphic Processing Unit)随机行走计算效率,对比了拉普拉斯模型随机行走雪花生长的GPU与CPU加速特性,给出了该模型随机计算环境尺寸增加的用时增长曲线。 相似文献
8.
计算机层析成像技术,在医学和工业等诸多领域中有着广泛应用。在三维锥束CT图像重建算法中,基于圆形轨道和二维平板探测器的FDK算法最为著名。传统CPU上实现的FDK算法,计算复杂性主要集中在所谓的反投影阶段,占据了整个重建时间的99%。给出了基于CUDA统一计算架构的FDK算法的GPU实现,对于整个重建过程获得了超过百倍的加速。 相似文献
9.
赵海国 《数字社区&智能家居》2011,(20)
H.264视频编码压缩比率高,但计算复杂度高,编码效率低。该文通过分析H.264编码器中各模块的编码性能,提出了基于CUDA编程模型的H.264视频编码并行框架实现方法,对H.264视频编码的各个关键模块进行CUDA实现,有效的提高了编码的速度。 相似文献
10.
RSA算法的CUDA高效实现技术 总被引:1,自引:1,他引:0
CUDA(Compute Unified Device Architecture)作为一种支持GPU通用计算的新型计算架构,在大规模数据并行计算方面得到了广泛的应用。RSA算法是一种计算密集型的公钥密码算法,给出了基于CUDA的RSA算法并行化高效实现技术,其关键为引入大量独立并发的Montgomery模乘线程,并给出了具体的线程组织、数据存储结构以及基于共享内存的性能优化实现技术。根据RSA算法CUDA实现方法,在某款GPU上测试了RSA算法的运算性能和吞吐率。实验结果表明,与RSA算法的通用CPU实现方式相比,CUDA实现能够实现超过40倍的性能加速。 相似文献
11.
针对H.264压缩编码中计算量大以及最为耗时的运动估计搜索算法的特点,利用图形处理器的并行优化思想,研究基于CUDA计算平台的运动估计搜索算法GEA(全域消除算法)的并行化处理方法,并对其中的并行设计、数据处理、结果反馈等关键技术问题,进行了详细论述。最后通过实验数据对算法运行效率进行对比分析。实验结果表明GPU中的GEA搜索算法运动搜索性能较之CPU中有显著提高。 相似文献
12.
13.
通过对人脸识别系统的2个关键部分的优化,实现一种快速高效的人脸识别系统。在面部检测阶段改进图像积分的并行算法;在面部识别阶段尝试算法的并行化,并且把测试阶段的一部分进行了并行化。与传统的CPU识别程序相比,CUDA平台改进程序可在面部检测阶段实现22.42倍的加速比,在面部识别阶段实现1668.56倍的加速比。实验数据表明,本文提出的人脸识别系统具有很高的实时性能。 相似文献
14.
15.
针对CPU-GPU异构并行系统应用开发移植后优化不充分问题,提出了一种渐近拟合优化与源到源编译相结合的方法,该方法能够对插入了制导语句的C语言程序转换为CUDA语言后的程序进行多次剖分,根据源程序特性和硬件信息自动完成源到源编译与优化,并基于该方法实现了原型系统。通过在不同环境中的该原型系统在功能和性能方面进行的测试表明,由系统生成的CUDA目标程序与C源程序在功能上一致,性能上却有了大幅度提高,通过与CUDA基准测试程序相比表明,该目标程序在性能上明显优于其他源到源编译转换生成的程序。 相似文献
16.
GPU加速的图像匹配技术 总被引:1,自引:0,他引:1
厉旭杰 《计算机工程与应用》2012,48(2):173-176
传统的模板图像匹配算法,匹配速度较慢。应用GPU通用高性能编程技术实现了一种加速图像匹配算法的新方法。应用CUDA编程技术对图像匹配算法进行并行化改造。采用了四种不同的存储方案,在第四种存储方案中获得了43.5倍的加速比,并对四种不同的存储方案的性能进行了深入研究。 相似文献
17.
18.
19.
GPU加速的二值图连通域标记并行算法 总被引:1,自引:0,他引:1
结合NVIDIA公司统一计算设备架构(CUDA)下的图形处理器(GPU)并行结构和硬件特点,提出了一种新的二值图像连通域标记并行算法,高速有效地标识出了二值图的连通域位置及大小,大幅缩减了标记时间耗费。该算法通过搜索邻域内最小标号值的像素点对连通域进行标记,各像素点处理顺序不分先后并且不相互依赖,因此可以并行执行。算法效率不受连通域形状及数量的影响,具有很好的鲁棒性。实验结果表明,该并行算法充分发挥了GPU并行处理能力,在处理高分辨率与多连通域图像时效率为一般CPU标记算法的300倍,比OpenCV的优化函数(CPU)效率高近17倍。 相似文献
20.
字符串匹配算法的应用非常广泛,在信息检索、信息安全等领域都起着关键的作用。近年来,由于GPU通用计算的高速发展,且GPU具有很强的并行计算能力和很高的存储器访问带宽,利用GPU来加速字符串匹配算法吸引了越来越多的关注。提出的改进的AC模式匹配算法,在对前人工作的基础上,进一步消除了output表的存储,将纹理存储器中的查表操作转换为数值比较操作,与改进前算法相比,速度提高了80%以上;进一步的,引入了多个可变参数,提高AC算法的有效数据匹配率,并优化线程块的大小,优化后的算法与采用一种特殊匹配方式的高效的PFAC算法相比,速度提高了9%以上。 相似文献