期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

姜超耿则勋娄博魏小峰沈忱《计算机科学》2013,40(12):295-297,307

SIFT算法因具有旋转、缩放以及平移不变性而在影像配准和基于影像的三维重建领域得到广泛应用。但该算法复杂度较高,在CPU上执行的效率不高,难以满足对实时性要求较高的应用。在深入分析SIFT算法原理的基础上,针对该算法提取特征的多量性和特征向量的高维性,将该算法进行了并行化改造以利用GPU强大的并行计算能力,并与CPU上实现的SIFT算法进行了比较。实验证明,基于GPU的SIFT算法执行效率大幅提升,平均可以达到10倍以上的加速比。相似文献

2.

基于Chan-Vese模型的面向多核CPU和GPU的人脸轮廓提取并行算法

王丽娜史晓华《计算机应用》2014,34(11):3121-3125

针对人脸轮廓提取中Chan-Vese模型计算量大、分割速度缓慢等问题,采用开放计算语言(OpenCL)并行编程模型,提出了一种基于图形处理器(GPU)和多核CPU加速的并行算法。该算法首先将模型的框架进行重构,消除模型中的数据依赖关系;然后,利用开放计算语言对算法进行并行化以及相应的优化。实验结果表明,与单线程算法相比,在NVIDIA GTX660和AMD FX-8530下达到了较高的加速比。相似文献

3.

面向异构架构的传递闭包并行算法

肖汉郭宝云李彩林周清雷《计算机工程》2021,47(8):131-139

传统求图传递闭包的方法存在计算量大与计算时间长的问题。为加快处理大数据量的传递闭包算法的计算速度,结合算法密集计算和开放式计算语言（OpenCL）框架的特征,采用本地存储器优化的并行子矩阵乘和分块的矩阵乘并行计算,提出一种基于OpenCL的传递闭包并行算法。利用本地存储器优化的并行子矩阵乘算法来优化计算步骤,提高图形处理器（GPU）的存储器利用率,降低数据获取延迟。通过分块矩阵乘并行计算算法实现大数据量的矩阵乘,提高GPU计算核心的利用率。数据结果表明,与CPU串行算法、基于开放多处理的并行算法和基于统一设备计算架构的并行算法相比,传递闭包并行算法在OpenCL架构下NVIDIA GeForce GTX 1070计算平台上分别获得了593.14倍、208.62倍和1.05倍的加速比。相似文献

4.

基于OpenCL的GPU加速三维时域有限差分电磁场仿真算法研究

代健褚天舒杨照《数值计算与计算机应用》2014,(1):10-11

提出了一种基于开放运算语言（OpenCL）的GPU加速三维时域有限差分（FDTD）电磁场仿真计算的方法．该方法利用图形处理单元（GPU）的并行处理特性并结合OpenCL接口标准实现了时域卷积完全匹配层（CPML）吸收边界条件的三维FDTD的高性能加速计算．首先设置FDTD仿真参数并动态申请内存空间,然后初始化OpenCL的计算参数,对三维电磁模型基于OpenCL进行FDTD加速仿真．本方法显著提升了FDTD电磁场仿真速度,与利用CPU计算相比速度提升可达5-8倍,且具有CPML吸收边界条件,可以模拟电磁波在自由空间的传播;基于OpenCL编译的语言程序可以运行在CPU或GPU硬件上,并可充分发挥多核CPU的并行计算能力,使得FDTD电磁场仿真具有更广泛的实际应用．相似文献

5.

基于OpenCL的并行kNN算法设计与实现

杨朋霖冯百明周志阳温向慧《计算机工程与科学》2017,39(12):2198-2202

kNN算法是机器学习和数据挖掘程序中经常使用的经典算法。随着数据量的增大,kNN算法的执行时间急剧上升。为了有效利用现代计算机的GPU等计算单元减少kNN算法的计算时间,提出了一种基于OpenCL的并行kNN算法,该算法对距离计算和排序两个瓶颈点进行并行化,在距离计算阶段使用细粒度并行化策略和优化的线程模型,排序阶段使用优化内存模型的双调排序。以UCI数据集letter为测试集,分别使用E8400和GTS450运行kNN算法进行测试,采用GPU加速的并行kNN算法的计算速度比CPU版提高了40.79倍。相似文献

6.

移动智能终端的SIFT特征检测并行算法

甘威张素文雷震李怡凡《计算机科学》2016,43(Z6):165-167

特征的检测和匹配在计算机视觉应用中是一个重要的组成部分,如图像匹配、物体识别和视频跟踪等。SIFT算法以其尺度不变性和旋转不变性在图像配准领域得到了广泛应用。传统的SIFT算法效率低,因此提出一种在移动智能终端上实现的高效方法。在Android平台利用OpenCL框架实现了移动智能终端的SIFT算法,通过计算任务的重新分配,优化SIFT算法在移动GPU上的并行实现。实验结果表明,移动平台的SIFT算法充分利用了GPU并行计算能力,大大提高了SIFT算法的执行效率,实现了高效的特征检测。相似文献

7.

基于OpenCL的数字相控阵雷达干扰模拟 总被引：1，自引：0，他引：1

王开拓白雪郭晓宇《计算机测量与控制》2017,25(9)

针对现代战争复杂电磁环境以及数字相控阵雷达干扰信号生成数据量大、多波束等难点,利用图形处理器（GPU）带宽高,运算能力强的特点,使用OpenCL异构编程框架实现数据级并行策略,设计了基于OpenCL的五种典型数字干扰并行算法。算法根据GPU的读写机制进行优化设计,充分发掘了现有GPU的并行计算能力。实验结果表明：基于GPU的数据并行计算程序与中央处理器（CPU）平台相比较,加速比最大可达3.25,提高了相关雷达回波模拟设备的速度,基本满足数字相控阵雷达信号处理的实时性要求。相似文献

8.

基于OpenCL的JPEG压缩算法并行化设计与实现

张敏华张剑贤裘雪红周端《计算机工程与科学》2017,39(5):860-860

随着图像数据的大量增加,传统单处理器或多处理器结构的计算设备已无法满足实时性数据处理要求。异构并行计算技术因其高效的计算效率和并行的实时性数据处理能力,正得到广泛关注和应用。利用GPU在图形图像处理方面并行性的优势,提出了基于OpenCL的JPEG压缩算法并行化设计方法。将JPEG算法功能分解为多个内核程序,内核之间通过事件信息传递进行顺序控制,并在GPU+CPU的异构平台上完成了并行算法的仿真验证。实验结果表明,与CPU串行处理方式相比,本文提出的并行化算法在保持相同图像质量情况下有效提高了算法的执行效率,大幅降低了算法的执行时间,并且随着图形尺寸的增加,算法效率获得明显的提升。相似文献

9.

基于OpenCL的ICP点云并行配准算法 总被引：1，自引：0，他引：1

《计算机应用与软件》2016,(11)

针对当前点云配准算法效率过低的问题,运用OpenCL实现了基于通用GPU的kd-tree并行搜索算法,进而实现了ICP点云并行配准算法。首先建立目标点云的三维空间kd-tree,并使用OpenCL并行加速其搜索算法;然后将并行加速的kd-tree搜索算法运用于ICP算法,同时针对ICP算法的其他部分也使用OpenCL并行加速以确保配准过程尽可能高效。通过实验验证了所实现算法的高效性以及健壮性。相似文献

10.

高分辨率遥感图像配准并行加速方法

郝昀超王显珉《计算机科学》2015,42(9):29-32

基于SIFT算法的遥感图像配准精度高、稳定性强,但图像幅宽大、提取特征点数量多使得配准过程耗时长。提出了一种高分辨率遥感图像配准的并行加速方法。该方法在特征点提取时利用GPU实现了高斯金字塔建立过程中的并行加速,并对提取出的大量特征点使用共享内存来进行局部极值高速缓存,降低了特征点提取所需的运算时间;同时通过分块处理以及OpenMP多线程技术实现了特征点匹配及仿射模型计算过程的CPU并行处理。实验表明:本方法相对于传统的SIFT算法平均加速3倍,并且对于固定大小的图像,本方法的特征点提取时间和特征点个数具有线性关系,加速比随着提取出特征点数量的增加而增大。相似文献

11.

基于图形处理器加速的医学图像配准技术进展

查珊珊王远军聂生东《计算机应用》2015,35(9):2486-2491

针对目前医学图像配准技术无法满足临床实时性需求问题,对基于图形处理器(GPU)加速的医学图像配准技术进行综述探讨。首先对GPU通用计算进行概述,再以医学图像配准基本框架为主线,对近年来基于GPU加速的医学图像配准技术在国内外发展现状进行深入研究,并针对正电子发射型计算机断层显像(PET)和电子计算机断层扫描(CT)数据的非线性配准问题,分别基于中央处理器(CPU)和GPU平台进行配准实验,通过实验结果的对比,体现GPU加速配准技术的优越性。基于GPU加速的自由形变(FFD)和归一化互信息(NMI)结合的非线性配准方法配准后互信息值略低于CPU平台的配准结果,但其配准速度是CPU平台的12倍。基于GPU加速的配准算法在保持配准精度的基础上,配准速度都得到了很大的提升。相似文献

12.

基于CUDA的尺度不变特征变换快速算法 总被引：2，自引：2，他引：0

下载免费PDF全文

田文徐帆王宏远周波《计算机工程》2010,36(8):219-221

针对尺度不变特征变换(SIFT)算法耗时多限制其应用范围的缺点,提出一种基于统一计算设备架构(CUDA)的尺度不变特征变换快速算法,分析其并行特性,在图像处理单元(GPU)的线程和内存模型方面对算法进行优化。实验证明,相对于CPU,算法速度提升了30~50倍,对640×480图像的处理速度达到每秒24帧,满足实时应用的需求。相似文献

13.

基于GPGPU的生物序列快速比对 总被引：1，自引：0，他引：1

下载免费PDF全文

马海晨韦刚吴百蜂《计算机工程》2012,38(4):241-244

在CPU-GPU异构平台下,提出一种高效的生物序列比对方案。该方案利用GPU的并行处理能力,通过对读延迟、写延迟、重组函数及数据传输进行优化,在OpenCL框架下重构Smith-Waterman算法,加快生物序列比对速度。实验结果证明,与CPU上传统的串行算法相比,该算法最高可获得约100倍的性能提升。相似文献

14.

基于OpenCL的累积汇流并行计算

龙满生罗文浪《计算机工程与应用》2014,(3):22-29,116

大尺度、高分辨率数字地形数据应用需求的增长,给计算密集型的累积汇流等数字地形分析算法带来了新的挑战。针对CPU/GPU(Graphics Processing Unit)异构计算平台的特点,提出了一种基于OpenCL(Open Computing Language)的多流向累积汇流算法的并行化策略,具有更好的平台独立性和可移植性,简化了CPU/GPU异构平台下的并行应用程序设计。累积汇流并行算法包括时空独立型的流量分配和空间依赖型的累积入流两个过程,均定义为OpenCL内核并交由OpenCL设备并行执行,其中累积入流过程借助流量转移矩阵由递归式转换为迭代式来实现并行计算。与基于流量转移矩阵的并行汇流算法相比,尽管基于单元入度矩阵的并行汇流算法可以降低迭代过程中的计算冗余,但需要采用具有较大延迟的原子操作以及需要更多的迭代次数,在有限的GPU计算资源下,两种算法性能差异不明显。实验结果表明,并行累积汇流算法在NVIDIA GeForce GT 650M GPU上获得了较好的加速比,加速性能随格网尺度增加而有所增加,其中流量分配获得了约50～70倍的加速比,累积入流获得了10～20倍的加速比,展示了利用OpenCL在GPU等并行计算设备上进行大规模数字地形分析的潜在优势。相似文献

15.

基于GPU的低密度奇偶校验码译码加速技术

徐启迪刘争红郑霖《计算机应用》2022,42(12):3841-3846

随着通信技术的发展,通信终端逐渐采用软件的方式来兼容多种通信制式和协议。针对以计算机中央处理器（CPU）作为运算单元的传统软件无线电架构,无法满足高速无线通信系统如多进多出（MIMO）等宽带数据的吞吐率要求问题,提出了一种基于图形处理器（GPU）的低密度奇偶校验（LDPC）码译码器的加速方法。首先,根据GPU并行加速异构计算在GNU Radio 4G/5G物理层信号处理模块中的加速表现的理论分析,采用了并行效率更高的分层归一化最小和（LNMS）算法;其次,通过使用全局同步策略、合理分配GPU内存空间以及流并行机制等方法减少了译码器的译码时延,同时配合GPU多线程并行技术对LDPC码的译码流程进行了并行优化;最后,在软件无线电平台上对提出的GPU加速译码器进行了实现与验证,并分析了该并行译码器的误码率性能和加速性能的瓶颈。实验结果表明,与传统的CPU串行码处理方式相比,CPU+GPU异构平台对LDPC码的译码速率可提升至原来的200倍左右,译码器的吞吐量可以达到1 Gb/s以上,特别是在大规模数据的情况下对传统译码器的译码性有着较大的提升。相似文献

16.

基于图形处理器的可变形部件模型算法的并行化

刘宝平陈庆奎李金静刘伯成《计算机应用》2015,35(11):3075-3078

目前目标识别领域,在人体检测中精确度最高的算法就是可变形部件模型(DPM)算法,针对DPM算法计算量大的缺点,提出了一种基于图形处理器(GPU)的并行化解决方法.采用GPU编程模型OpenCL,对DPM算法的整个算法的实现细节采用了并行化的思想进行重新设计实现,优化算法实现的内存模型和线程分配.通过对OpenCV库和采用GPU重新实现的程序进行对比,在保证了检测效果的前提下,使得算法的执行效率有了近8倍的提高. 相似文献

17.

基于GPU的视频流人群实时计数

姬丽娜陈庆奎陈圆金赵德玉方玉玲赵永涛《计算机应用》2017,37(1):145-152

为了解决人群遮挡严重、光照突变等恶劣环境下人群计数准确率低的问题,提出基于混合高斯模型（GMM）和尺度不变特征变换（SIFT）特征的人群数量统计分析新方法。首先,基于GMM提取运动人群,并采用灰度共生矩阵（GLCM）和形态学方法去除背景中移动的小物体和较密集的噪声等非人群前景,针对GMM算法提出了一种效率较高的并行模型;接着,检测运动人群的SIFT特征点作为人群统计的基础,基于二值图像的特征提取大大减少了执行时间;最后,提出基于人群特征数和人群数量进行统计分析的新方法,选择不同等级的人群数量的数据集分别进行训练,统计得出平均单个特征点数,并对不同密度的行人进行计数实验。算法采用基于GPU多流处理器进行加速,并针对所提算法在统一计算设备架构（CUDA）流上任务的有效调度的方法进行分析。实验结果显示,相比单流提速31.5%,相比CPU提速71.8%。相似文献