期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

曾胜田刘羽马梦琦《微计算机应用》2011,32(11):71-75

Prewitt算子是数字图像分割中最常用的边缘检测算法,由于计算量大,传统的基于CPU的串行算法耗时较长.为了提高算法的计算效率,本文把Prewitt算子在CUDA架构下并行实现,并通过对不同分辨率图像的处理实验,与串行算法的处理时间进行比对,列出加速比.实验结果表明并行算法的加速效果显著,对提高图像处理系统的运行效率具有实际意义. 相似文献

2.

CT体数据中心环绕特征检测算法及其CUDA加速

崔明明曹鸿涛闫镔陈健曾磊蔡爱龙《计算机应用研究》2015,32(6)

针对CT体数据的多尺度特征点检测计算量大、耗时长的问题,提出一种三维中心环绕特征快速检测算法.设计三维中心环绕特征检测子,结合三维积分图像快速生成图像的尺度空间,同时利用三维Harris边缘判定准则去除边缘点,增强特征点的稳定性.实验结果表明,相比于经典的三维DoG和SURF检测子,算法计算时间显著降低(检测时间约为三维DoG检测子的1/8,三维SURF检测子的1/2),同时相比于三维SURF检测子,特征点检测重复率也有一定程度的提高.最后,对三维中心环绕特征检测算法进行并行性分析,并分别从尺度空间生成和特征点搜索及边缘抑制两部分进行CUDA并行加速.实验结果表明,经CUDA加速后,算法能得到10倍左右的加速比,特征点检测过程耗时基本达到实际应用需求. 相似文献

3.

基于CUDA的图像匹配算法

周冰园陈庆奎高丽萍秦川《计算机工程与应用》2015,51(12):165-170

为解决目前已有的图像匹配算法不适用于对实时性要求很强的应用,提出了PLS（Partial Least Squares）与余弦定理相结合的并行化图像匹配算法。该算法在CUDA架构下,对图像矩阵分块,分块后每个小块图像存入共享存储器处理并提取每个小块图像特征,通过合并后图像特征采用余弦定理计算图像的相似度,从而找出匹配图像。实验表明,CUDA架构下可以实现图像的并行匹配,与CPU上串行匹配相比,时效性提高了百倍以上。相似文献

4.

基于CUDA 的Wu-Manber 多模式匹配算法 总被引：1，自引：0，他引：1

马计王国平杨明《计算机系统应用》2012,21(3):51-54,175

多模式匹配是计算机科学中最基本的问题,其应用在许多领域,在一些情形下也是比较耗时的。GPU拥有比CPU更强的并行计算能力,随着CUDA架构的推出,GPU用于通用计算领域的并行编程工作变得更加轻松。实现了基于CUDA架构的Wu-Manber多模式匹配算法,实验结果表明,相比传统串行算法而言,本文的实现获得了10倍以上的加速。相似文献

5.

基于CUDA的热传导GPU并行算法研究

孟小华黄丛珊朱丽莎《计算机工程》2014,(5):41-44,48

在热传导算法中,使用传统的CPU串行算法或MPI并行算法处理大批量粒子时,存在执行效率低、处理时间长的问题。而图形处理单元(GPU)具有大数据量并行运算的优势,为此,在统一计算设备架构(CUDA)并行编程环境下,采用CPU和GPU协同合作的模式,提出并实现一个基于CUDA的热传导GPU并行算法。根据GPU硬件配置设定Block和Grid的大小,将粒子划分为若干个block,粒子输入到GPU显卡中并行计算,每一个线程执行一个粒子计算,并将结果传回CPU主存,由CPU计算出每个粒子的平均热流。实验结果表明,与CPU串行算法在时间效率方面进行对比,该算法在粒子数到达16 000时,加速比提高近900倍,并且加速比随着粒子数的增加而加速提高。相似文献

6.

基于CUDA加速的图像配准算法

牛彤刘立东武忆涵《计算机系统应用》2023,32(1):146-155

针对传统图像拼接算法速度较慢,难以满足获取大分辨率全景图像的实时性要求,本文提出一种基于CUDA的快速鲁棒特征(speeded-up-robust features, SURF)图像配准算法,从GPU线程执行模型、编程模型和内存模型等方面,对传统SURF算法特征点的检测和描述进行CUDA并行优化;基于FLANN和RANSAC算法,采用双向匹配策略进行特征匹配,提高配准精度.结果表明,相对串行算法,本文并行算法对不同分辨率的图像均可实现10倍以上的加速比,而且配准精度较传统配准算法提高17%,精度最优可高达96%.基于CUDA加速的SURF算法可广泛应用于安防监控领域,实现全景图像的实时配准. 相似文献

7.

基于CUDA的图像轮廓提取并行实现

吴松城《电脑与微电子技术》2012,(6):55-57,61

对图像轮廓提取进行并行实现,介绍基于形态水平集的图像轮廓提取算法,对该算法的并行可行性进行分析,并采用CUDA技术并行实现。与串行的方式实现比较,采用CUDA技术实现可以节省更多的时间,得出CUDA并行技术在需要大量数据计算时加速的有效性。相似文献

8.

基于CUDA的双三次B样条缩放方法 总被引：4，自引：2，他引：2

下载免费PDF全文

桂叶晨冯前进刘磊陈武凡《计算机工程与应用》2009,45(1):183-185

Nvidia在GeForce 8系列显卡上推出的CUDA（统一计算设备架构）技术使GPU通用计算（GPGPU）从图形硬件流水线和高级绘制语言中解放出来,开发人员无须掌握图形学编程方法即可在单任务多数据模式（SIMD）下完成高性能并行计算。研究了CUDA的设计思想和编程方式,改进了基于双三次B样条曲面的图像缩放算法,使用多个线程将计算中耗时的B样条重采样部分改造成SIMD模式,并分别采用CUDA中全局存储器和共享存储器策略在CUDA上完成图像缩放的全过程。实验结果表明,基于CUDA的B样条曲面并行插值方法成功实现了硬件加速,相对于CPU上运行的B样条缩放算法,其执行效率明显提高,易于扩展,对于大规模数据处理呈现出良好的实时处理能力。相似文献

9.

基于GPU加速的图像双向相似性计算

傅贤超《现代计算机》2013,(11)

针对双向相似性计算在CPU下串行计算效率低下,无法满足实际需求的问题,利用该计算中数据独立性的特点,应用CUDA编程模型实现基于GPU加速的图像双向相似性计算。与CPU相比,在392x300的分辨率实验下,该算法在GPU上可获得超过1200倍的加速比。相似文献

10.

基于MPICUDA环境的静电相互作用能并行求解

刘青昆马名威杨荣杰宫利东《计算机应用与软件》2012,(11)

ABEEMσπ(Atom BondElectronegativityEqualizationσπModel)模型中,原串行程序求静电相互作用能的方法非常耗时,致使研究问题的效率降低.针对原程序中多个循环相互嵌套的求解部分,采用带状卷帘存储迭代分配的MPI(MessagePassingInter face)并行化处理;对体系中所有原子、σ键、孤对电子、π键位点之间的静电相互作用能采用多线程CUDA(ComputerUnifiedDevice Architecture)并行化处理.传统MPI+CUDA环境中,GPU和CPU之间的数据传输开销大,导致整体性能下降以及各种粒子间计算串行调用CUDA,致使时间浪费.针对上述情况,使用GPU核心的缓存机制解决传输开销大的问题,并利用多CUDA流技术实现多个循环异步进行计算,从而缩短了运行时间.然后选取多个不同类型的大分子体系进行测试,结果表明,利用改进的MPI+CUDA并行模型进行动力学模拟,并行加速比显著提高,大幅度缩减了求解静电相互作用能的时间,并得到与串行一致的结果. 相似文献

11.

基于图形处理器的模糊C均值聚类分割算法

刘刚梁晓庚贺学剑《计算机科学》2012,39(1):285-286,294

针对模糊C均值聚类图像分割算法运算量大、难于实时处理的问题,提出了一种基于图形处理器的加速算法。通过分析模糊C均值聚类算法各阶段可以并行处理的运算部分,利用计算统一设备架构软硬件结构,分别将隶属度矩阵计算、聚类中心计算和像素按隶属度归类3个部分改造成适合图形处理器硬件并行运行的形式。实验结果表明,相对于CPU串行算法,基于图形处理器的加速算法效率提升明显。鉴于大多数图像处理算法均具有可并行处理的部分,利用图形处理器进行加速具有普适性。相似文献

12.

动态船舶行驶场景下的实时单目测距算法研究

夏红杰陈姚节徐新王薇《计算机技术与发展》2022,(2):167-171

为了利用单目视觉实时监测船舶行驶过程中与周围船舶之间的距离,首先分析单目视觉测距现状及其成功应用实例,基于小孔成像原理建立单目相机模型,通过几何推导,得到世界坐标系、相机坐标系、图像坐标系及像素坐标系之间三层坐标转换关系.随后通过实验验证pitch俯仰角与yaw水平角对单目视觉测距的影响程度,从而分析出动态船舶行驶场景... 相似文献

13.

基于CUDA的汇流分析并行算法的研究与实现* 总被引：2，自引：0，他引：2

赵向辉苗青付忠良苏畅李昕《计算机应用研究》2010,27(7):2445-2447

针对基于数字高程模型（DEM）生成流域等流时线的快速运算问题,提出了一种基于统一设备计算架构（CUDA）平台同时可发挥图形处理器（GPU）并行运算特性的汇流分析的快速并行算法。采用改进后的归并排序算法进行数据排序及新的内存分配策略和改进的并行算法进行汇流分析。用该并行算法和CPU上的串行算法, 对生成基于DEM的等流时线运算时间和矩阵乘法运算时间进行分析验证。实验结果表明,基于CUDA的汇流分析并行算法能提高系统的计算效率,具有较好的效果。相似文献

14.

FPCB基准孔精确定位技术研究 总被引：1，自引：0，他引：1

下载免费PDF全文

徐煜明韩雁《计算机工程与应用》2009,45(29):233-236

提出一种基于机器视觉光学目标自动快速定位的改进算法。该算法为快速识别目标,对图像进行标签处理、邻域滤波和腐蚀处理,采用梯度算子和最小二乘圆算法确定靶心参数,基于步长测试自动获取脉冲当量,采用升降频算法控制伺服电机变速运行。实验结果表明,利用FPCB基准孔定位技术能成功实现FPCB定位靶的高精度、快速实时定位,具有较好的应用前景。相似文献

15.

用并行计算从基因表达数据构建大规模基因调控网络

郑明周柚卓慕瑰《计算机应用研究》2020,37(7):2041-2044

为解决大规模基因调控网络构建算法精度不高、计算时间过长的问题,提出一种从基因表达数据分析出发,并行计算和阈值限定相结合的新算法来构建大规模基因调控网络。该算法中基因间交互强度值采用条件互信息值度量,并行计算采用GPU与CPU相结合的CUDA与OpenMP架构。综合数据集的运行结果证明该算法较新的构建算法（如贝叶斯模型算法和微分方程模型算法）相比,在构建大规模基因调控网络时有更高的运算精度和更短的运行时间。相似文献

16.

Zernike矩和曲率的圆形中心亚像素定位

下载免费PDF全文

刘金颂原思聪江祥奎《计算机工程与应用》2010,46(29):153-155

提出了一种基于Zernike矩和曲率不变的圆形标记椭圆图像中心的亚像素精确定位方法。首先采用多结构元多尺度形态学边缘检测算子提取椭圆图像的像素级边缘并滤除噪声,其次构造出椭圆图像的Zernike矩求解模型并结合曲率不变性计算出椭圆的亚像素边缘,最后利用最小二乘拟合对椭圆中心进行精确定位。实验结果表明：该方法具有计算速度快、定位精度高的优点,可用于高精度视觉测量。相似文献

17.

基于CUDA的直升机旋翼桨叶挥舞角快速测量方法

熊邦书汪建勇黄建萍余磊《测控技术》2016,35(6):30-32

针对基于立体视觉的直升机旋翼桨叶挥舞角测量CPU串行算法耗时多、效率不高的问题,利用图像处理单元(GPU)并行计算的优势,提出一种基于CUDA统一计算设备构架的并行处理快速算法.首先,对算法中最耗时的图像去噪、阈值分割、连通域标记三部分进行并行化设计;然后,采用多层次并行策略将大量密集运算分配到不同的图像处理单元上并行执行,利用共享内存和共享寄存器加速数据访问;最后,进行多次测量实验,结果表明该方法执行效率明显高于CPU串行方法,可满足旋翼桨叶挥舞角快速测量的要求. 相似文献

18.

CUDA并行技术与数字图像几何变换 总被引：2，自引：0，他引：2

覃方涛房斌《计算机系统应用》2010,19(10):168-172

CUDA是GPU通过并发执行多个线程以实现大规模快速并行计算能力的技术,它能使对GPU编程变得更容易。介绍了CUDA基本特性及主要编程模型,在此基础上,提出并实现了基于NVIDIA CUDA技术的图像快速几何变换。采用位置偏移增量代替原变换算法中大量乘法运算,并把CUDA技术的快速并行计算能力应用到数字图像几何变换中,解决了基于CPU的传统图像几何变换运算效率低下的问题。实验结果证明使用CUDA技术,随着处理图像尺寸的增加,对数字图像几何变换处理效率最高能够提高到近100倍。相似文献

19.

基于CUDA的拉普拉斯边缘检测算法

下载免费PDF全文

孟小华刘坚强区业祥张庆丰《计算机工程》2012,38(18):190-193

拉普拉斯边缘检测算法常用于去除CCD天文图像中的宇宙射线噪声,但其串行算法计算复杂度较高。为此,分析拉普拉斯边缘检测算法的并行性,在统一计算设备架构(CUDA)并行编程环境下,提出一种基于CUDA的拉普拉斯边缘检测图形处理单元(GPU)并行算法。分割天文图像得到多幅子图,根据GPU的硬件配置设定Block和Grid的大小,将子图依次传输到显卡进行并行计算,传回主存后拼接得到完整的图像输出。实验结果表明,图像尺寸越大,该并行算法与串行算法相比具有的速度优势越大,可获得10倍以上的加速比。相似文献