期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

使用GPU技术的数据流分位数并行计算方法 总被引：1，自引：0，他引：1

周勇王皓程春田《计算机应用》2010,30(2):543-546

数据流实时、连续、快速到达的特点决定了数据流的实时处理能力。在处理低维数据流时经常使用分位数信息来描述数据流的统计信息,利用图形处理器（GPU）的强大计算能力和高内存带宽的特性计算数据流分位数信息,提出了基于统一计算设备架构（CUDA）的数据流处理模型和基于该模型的数据流分位数并行计算方法。实验证明,该方法在提供不低于纯CPU分位数算法相同精度的条件下,使数据流分位数的实时计算带宽得到了显著的提高。相似文献

2.

GIST特征提取的异构并发流计算实现 总被引：1，自引：0，他引：1

仲济源梅魁志温哲西《计算机工程与应用》2015,(6):139-144,187

针对图像GIST全局特征提取算法的计算任务,实现了CPU+GPU异构协同计算与优化：使用CPU完成图像量化、线性延拓等小计算量、不规则的数据运算,使用GPU完成滤波、Gabor特征提取、降维等计算密集、高度并行的数据运算。面向图像序列的计算扩展,在CPU端引入线程池技术,通过每个线程都绑定一个CUDA流处理一幅图像的方法,实现了多幅图像并发流处理和流内数据传输延时的隐藏;利用线程池技术提供线程预创建、资源预分配及根据资源消耗情况的线程数量动态增减等方法,提高了CPU对GPU计算资源的调度使用效率。实验结果表明,在保证同等精度的前提下,基于异构计算平台的图像GIST特征提取方法相比传统CPU平台达到8.35~9.31倍的加速比,在使用线程池之后算法处理图像序列数据时速度进一步提升10.0%~37.2%。相似文献

3.

基于CUDA的大规模群体行为实时仿真并行实现及优化

贺毅辉叶晨刘志忠彭伟《计算机应用》2012,32(9):2466-2469

群体仿真中个体从环境中查找相关对象时会导致较高的时间复杂度。要使大规模群体能够实时仿真,必须降低模型运算的时间复杂度或者提高计算平台的能力。通过对Biods模型为典型案例进行研究,提出一种基于统一计算架构(CUDA)的大规模群体行为实时仿真并行实现及优化的方法。实现中将个体与GPU逻辑线程一一对应,通过将仿真环境离散化来提高相关个体查找的效率,通过并行化基数排序法将个体信息组织成具有空间局部性的数组,提高图形处理器(GPU)内存带宽的利用率。通过实验验证了该方法将仿真个体的数量提升到CPU方法的约7.3倍。相似文献

4.

CUDA架构下H.264快速去块滤波算法 总被引：1，自引：0，他引：1

刘虎孙召敏陈启美《计算机应用》2010,30(12):3252-3254

针对H.264/AVC视频编码标准中去块滤波器运算复杂度高、耗时巨大这一难题,提出了一种基于NVIDIA计算统一设备架构（CUDA）平台的H.264并行快速去块滤波算法,介绍了CUDA平台硬件结构特点与软件开发流程,根据图形处理器（GPU）的并发结构特点,对BS判定与滤波计算进行了并行优化,降低了算法复杂度,利用共享内存提高了数据访问速率,实现了去块滤波器的并行处理。实验结果表明,在图像质量基本不变的情况下,GPU算法能够明显提高运算速度,平均加速比在20倍左右,取得了良好的效果。相似文献

5.

基于CUDA的三维数据场航路规划方法

笪良龙臧涛杨廷武刘贝《计算机工程》2009,35(19):245-247

针对数据量庞大、复杂的三维数据场环境下航路规划速度偏低的问题,提出一种基于统一计算设备架构（CUDA）的三维数据场航路规划方法。该方法以三维水下声场为威胁模型,水下航行的潜艇为背景,运用CUDA对大规模数据场环境下对航路进行规划,对可并行计算部分与CUDA进行计算,仿真结果证明该方法可以提高规划速率、优化初始航路。相似文献

6.

基于CUDA的点云去噪算法 总被引：1，自引：0，他引：1

徐波唐杰武港山《计算机工程》2011,37(2):224-226

提出一种基于统一计算设备架构(CUDA)的双边滤波点云去噪算法,将点云去噪划分为多个并行度较高的步骤,利用GPU的并行计算能力,设计每个步骤的CUDA核函数。采用高斯加权的法矢计算方法,在双边去噪算法中加入面积权重缓解过光顺。实验结果表明,该算法能有效提高法矢计算的准确度,与CPU算法相比,计算速度提高了多个数量级。相似文献

7.

拉普拉斯生长的GPU实现与硬件加速

张学智齐记林平《计算机工程与应用》2012,48(22):84-87

编写实现了六方点阵中拉普拉斯模型的随机行走雪花生长的CUDA（Compute Unified Device Architecture）程序,分析了GPU（Graphic Processing Unit）随机行走计算效率,对比了拉普拉斯模型随机行走雪花生长的GPU与CPU加速特性,给出了该模型随机计算环境尺寸增加的用时增长曲线。相似文献

8.

锥束CT的FDK算法与CUDA实现

邓甜邓倩妮《微型电脑应用》2011,27(6):46-50,3

计算机层析成像技术,在医学和工业等诸多领域中有着广泛应用。在三维锥束CT图像重建算法中,基于圆形轨道和二维平板探测器的FDK算法最为著名。传统CPU上实现的FDK算法,计算复杂性主要集中在所谓的反投影阶段,占据了整个重建时间的99%。给出了基于CUDA统一计算架构的FDK算法的GPU实现,对于整个重建过程获得了超过百倍的加速。相似文献

9.

基于CUDA的H.264视频编码实现

赵海国《数字社区&智能家居》2011,(20)

H.264视频编码压缩比率高,但计算复杂度高,编码效率低。该文通过分析H.264编码器中各模块的编码性能,提出了基于CUDA编程模型的H.264视频编码并行框架实现方法,对H.264视频编码的各个关键模块进行CUDA实现,有效的提高了编码的速度。相似文献

10.

RSA算法的CUDA高效实现技术 总被引：1，自引：1，他引：0

孙迎红童元满王志英《计算机工程与应用》2011,47(2):84-87

CUDA（Compute Unified Device Architecture）作为一种支持GPU通用计算的新型计算架构,在大规模数据并行计算方面得到了广泛的应用。RSA算法是一种计算密集型的公钥密码算法,给出了基于CUDA的RSA算法并行化高效实现技术,其关键为引入大量独立并发的Montgomery模乘线程,并给出了具体的线程组织、数据存储结构以及基于共享内存的性能优化实现技术。根据RSA算法CUDA实现方法,在某款GPU上测试了RSA算法的运算性能和吞吐率。实验结果表明,与RSA算法的通用CPU实现方式相比,CUDA实现能够实现超过40倍的性能加速。相似文献

11.

运动估计搜索算法的CUDA优化与实现

陈佐陈汉季加良《计算机工程与应用》2010,46(32):171-176

针对H.264压缩编码中计算量大以及最为耗时的运动估计搜索算法的特点,利用图形处理器的并行优化思想,研究基于CUDA计算平台的运动估计搜索算法GEA（全域消除算法）的并行化处理方法,并对其中的并行设计、数据处理、结果反馈等关键技术问题,进行了详细论述。最后通过实验数据对算法运行效率进行对比分析。实验结果表明GPU中的GEA搜索算法运动搜索性能较之CPU中有显著提高。相似文献

12.

基于CUDA的地震数据相干体并行算法 总被引：5，自引：0，他引：5

吴连贵易瑜李肯立《计算机应用》2009,29(3):912-914

在地震探测解释方面,运用相干体技术可以清楚地识别断层和地层特征。由于相干体是通过三维地震数据体计算得到,传统方法难以满足计算需求。基于CUDA平台,提出了一种并行相干体算法,该算法可加速相干体算法中的矩阵相乘计算。理论分析和配有Intel Core2Due CPU和NVIDIA GeForce 8800 GT显卡的实验结果表明：基于GPU的并行相干体算法可取得理想的线性加速比,提高系统的计算效率。相似文献

13.

基于CUDA的实时人脸识别系统

刘铎《计算机与现代化》2015,(6):122

通过对人脸识别系统的2个关键部分的优化,实现一种快速高效的人脸识别系统。在面部检测阶段改进图像积分的并行算法;在面部识别阶段尝试算法的并行化,并且把测试阶段的一部分进行了并行化。与传统的CPU识别程序相比,CUDA平台改进程序可在面部检测阶段实现22.42倍的加速比,在面部识别阶段实现1668.56倍的加速比。实验数据表明,本文提出的人脸识别系统具有很高的实时性能。相似文献

14.

基于CUDA的多尺度Retinex图像增强算法实现

王正宁刘昌忠陈雷霆吴宏刚吴敏《计算机应用》2010,30(9):2441-2443

多尺度Retinex图像增强是一种基于色彩恒定理论的图像增强算法,算法增强效果好,但随着图像分辨率的提高计算时间显著增加。分析并利用计算统一设备架构(CUDA)图形处理器(GPU)的并行处理特性,提出了一种基于CUDA的多尺度Retinex图像增强并行算法,将多尺度高斯滤波、对数空间差分和动态范围压缩等计算非常耗时的模块采用并行方式放在GPU中进行计算。实验结果表明所提算法能显著提高计算速度,随着图像分辨率的增加,最大加速比超过100倍。相似文献

15.

面向CPU-GPU源到源编译系统的渐近拟合优化方法

魏洪昌朱正东董小社宁洁《计算机工程与应用》2016,52(21):30-35

针对CPU-GPU异构并行系统应用开发移植后优化不充分问题,提出了一种渐近拟合优化与源到源编译相结合的方法,该方法能够对插入了制导语句的C语言程序转换为CUDA语言后的程序进行多次剖分,根据源程序特性和硬件信息自动完成源到源编译与优化,并基于该方法实现了原型系统。通过在不同环境中的该原型系统在功能和性能方面进行的测试表明,由系统生成的CUDA目标程序与C源程序在功能上一致,性能上却有了大幅度提高,通过与CUDA基准测试程序相比表明,该目标程序在性能上明显优于其他源到源编译转换生成的程序。相似文献

16.

GPU加速的图像匹配技术 总被引：1，自引：0，他引：1

厉旭杰《计算机工程与应用》2012,48(2):173-176

传统的模板图像匹配算法,匹配速度较慢。应用GPU通用高性能编程技术实现了一种加速图像匹配算法的新方法。应用CUDA编程技术对图像匹配算法进行并行化改造。采用了四种不同的存储方案,在第四种存储方案中获得了43.5倍的加速比,并对四种不同的存储方案的性能进行了深入研究。相似文献

17.

统一设备计算架构下的栅格河网提取并行算法

王玉着刘修国张唯《计算机应用》2015,35(4):960-963

针对大规模高分辨率数字地形数据提取栅格河网效率低下的问题,提出了基于统一设备计算架构(CUDA)利用淹没模型提取栅格河网的并行算法。使用图形处理器(GPU)将汇流累积量计算分解为独立的多任务并行处理,通过数据异步传输减少数据交换时间,进而加速河网提取的运算。实验结果表明,该算法运行效率明显优于串行河网提取算法,在NVIDIA Geforce GTX660上对数据量为600 MB(网格大小为9784×8507)数字高程模型(DEM)数据提取河网加速比达到62。相似文献

18.

基于改进空体素跳跃法的光线投射算法 总被引：1，自引：0，他引：1

彭伟李建新闫镔童莉陈健《计算机工程》2012,38(2):264-266

提出一种针对计算统一设备架构(CUDA)存储器的访存优化策略。在此基础上,给出适用于CUDA存储器的改进空体素跳跃法,以减少对空体素采样点的处理,加快基于Phong光照模型的光线投射算法的运行速度。实验结果表明,该算法能在保证图像质量的前提下,提高图像绘制速度。相似文献

19.

GPU加速的二值图连通域标记并行算法 总被引：1，自引：0，他引：1

覃方涛房斌《计算机应用》2010,30(10):2774-2776

结合NVIDIA公司统一计算设备架构(CUDA)下的图形处理器(GPU)并行结构和硬件特点,提出了一种新的二值图像连通域标记并行算法,高速有效地标识出了二值图的连通域位置及大小,大幅缩减了标记时间耗费。该算法通过搜索邻域内最小标号值的像素点对连通域进行标记,各像素点处理顺序不分先后并且不相互依赖,因此可以并行执行。算法效率不受连通域形状及数量的影响,具有很好的鲁棒性。实验结果表明,该并行算法充分发挥了GPU并行处理能力,在处理高分辨率与多连通域图像时效率为一般CPU标记算法的300倍,比OpenCV的优化函数(CPU)效率高近17倍。相似文献

20.

基于GPU的AC模式匹配改进算法

汪宏王鹏《计算机工程与应用》2015,51(18):7-12

字符串匹配算法的应用非常广泛,在信息检索、信息安全等领域都起着关键的作用。近年来,由于GPU通用计算的高速发展,且GPU具有很强的并行计算能力和很高的存储器访问带宽,利用GPU来加速字符串匹配算法吸引了越来越多的关注。提出的改进的AC模式匹配算法,在对前人工作的基础上,进一步消除了output表的存储,将纹理存储器中的查表操作转换为数值比较操作,与改进前算法相比,速度提高了80%以上;进一步的,引入了多个可变参数,提高AC算法的有效数据匹配率,并优化线程块的大小,优化后的算法与采用一种特殊匹配方式的高效的PFAC算法相比,速度提高了9%以上。相似文献