首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
刘刚  梁晓庚  贺学剑 《计算机科学》2012,39(1):285-286,294
针对模糊C均值聚类图像分割算法运算量大、难于实时处理的问题,提出了一种基于图形处理器的加速算法。通过分析模糊C均值聚类算法各阶段可以并行处理的运算部分,利用计算统一设备架构软硬件结构,分别将隶属度矩阵计算、聚类中心计算和像素按隶属度归类3个部分改造成适合图形处理器硬件并行运行的形式。实验结果表明,相对于CPU串行算法,基于图形处理器的加速算法效率提升明显。鉴于大多数图像处理算法均具有可并行处理的部分,利用图形处理器进行加速具有普适性。  相似文献   

2.
下一代观测望远镜将会产生数以亿计的星系测量数据值,这将导致使用中央处理器处理数据时效率低下、成本较高。为了解决这一问题,提出了基于宇宙计算的图形处理器算法。研究了两点式角相关函数以及孔径质量统计这两种宇宙学的计算方法,构建算法代码,并使用统一计算设备架构在图形处理器上实现了这两种算法;比较了算法在中央处理器和图形处理器上使用的运行速度。实验结果表明,与中央处理器相比,使用图形处理器的计算速度得到了显著提高。  相似文献   

3.
随着数据采集设备的发展,数字地形分析中高分辨率数字高程模型(DEM)图像越来越普遍。目前已经存在一系列的曲线结构提取算法由于计算复杂度较高,因此在针对高分辨率DEM图像提取地形特征线时效率较低。提出一种在图形处理器(GPU)上加速Steger曲线结构提取算法的策略,利用图形处理器上计算统一设备架构(CUDA)的高度并行性来加速算法中计算密集的Hessian矩阵生成模块以及图像特征点提取模块,对于百万像素级的DEM图像该算法可以获得5倍以上的加速比。  相似文献   

4.
近年来,统一计算设备架构(CUDA)的提出和图形处理器(GPU)快速提升的并行处理能力和数据传输能力,使得基于CUDA的GPU通用计算迅速成为一个研究热点。针对含有大规模分子动力学模拟的热力学量提取效率低下的问题,提出了分子动力学模拟的热力学量提取的新方法,利用CUDA设计了并行算法,实现了利用GPU加速分子动力学模拟的热力学量提取。实验结果表明,与基于CPU的算法相比, GPU可以提高速度500倍左右。  相似文献   

5.
基于CUDA的汇流分析并行算法的研究与实现*   总被引:2,自引:0,他引:2  
针对基于数字高程模型(DEM)生成流域等流时线的快速运算问题,提出了一种基于统一设备计算架构(CUDA)平台同时可发挥图形处理器(GPU)并行运算特性的汇流分析的快速并行算法。采用改进后的归并排序算法进行数据排序及新的内存分配策略和改进的并行算法进行汇流分析。用该并行算法和CPU上的串行算法, 对生成基于DEM的等流时线运算时间和矩阵乘法运算时间进行分析验证。实验结果表明,基于CUDA的汇流分析并行算法能提高系统的计算效率,具有较好的效果。  相似文献   

6.
多尺度Retinex图像增强是一种基于色彩恒定理论的图像增强算法,算法增强效果好,但随着图像分辨率的提高计算时间显著增加。分析并利用计算统一设备架构(CUDA)图形处理器(GPU)的并行处理特性,提出了一种基于CUDA的多尺度Retinex图像增强并行算法,将多尺度高斯滤波、对数空间差分和动态范围压缩等计算非常耗时的模块采用并行方式放在GPU中进行计算。实验结果表明所提算法能显著提高计算速度,随着图像分辨率的增加,最大加速比超过100倍。  相似文献   

7.
面向移动设备的3D图形处理器设计   总被引:2,自引:0,他引:2  
提出一种面向移动设备的3D图形处理器的设计方法,从图形算法和硬件架构两个层次进行优化.对图形算法进行C语言的仿真模拟,并设计高效的具有并行和流水线结构的图形处理器架构.该架构采用定点的数据通道,拥有一个可编程的顶点处理器和基于像素块的光栅扫描转换模块,降低电路复杂度的同时提高了整体性能.该设计已经在FPGA上验证,并给出了实验结果.实验结果显示该图形处理器结构可以满足移动设备的图形应用要求,具有可行性.  相似文献   

8.
一种基于GPU加速的细粒度并行蚁群算法   总被引:1,自引:0,他引:1  
为改善蚁群算法对大规模旅行商问题的求解性能,提出一种基于图形处理器(GPU)加速的细粒度并行蚁群算法.将并行蚁群算法求解过程转化为统一计算设备架构的线程块并行执行过程,使得蚁群算法在GPU中加速执行.实验结果表明,该算法能提高全局搜索能力,增大细粒度并行蚁群算法的蚂蚁规模,从而提高了算法的运算速度.  相似文献   

9.
兰远东  刘宇芳  徐涛 《计算机工程》2012,38(13):145-147,151
为解决K-means 算法计算量大、收敛缓慢、运算耗时长等问题,给出一种新的K-means算法的并行实现方法。在通用计算图形处理器架构上,使用统一计算设备架构(CUDA)加速K-means算法。采用分批原则,更合理地运用CUDA提供的各种存储器,避免访问冲突,同时减少对数据集的访问次数,以提高算法效率。在大规模数据集中的实验结果表明,该算法具有较快的聚类速度。  相似文献   

10.
陈颖  林锦贤  吕暾 《计算机应用》2011,31(3):851-855
随着图形处理器(GPU)性能的大幅度提升以及可编程性的发展,已经有许多算法成功地移植到GPU上.LU分解和Laplace算法是科学计算的核心,但计算量往往很大,由此提出了一种在GPU上加速计算的方法.使用Nvidia公司的统一计算设备架构(CUDA)编程模型实现这两个算法,通过对CPU与GPU进行任务划分,同时利用GP...  相似文献   

11.
特征点检测被广泛应用于目标识别、跟踪及三维重建等领域。针对三维重建算法中特征点检测算法运算量大、耗时多的特点,对高斯差分(Difference-of-Gaussian,DoG)算法进行改进,提出特征点检测DoG并行算法。基于OpenMP的多核CPU、CUDA及OpenCL架构的GPU并行环境,设计实现DoG特征点检测并行算法。对hallFeng图像集在不同实验平台进行对比实验,实验结果表明,基于OpenMP的多核CPU的并行算法表现出良好的多核可扩展性,基于CUDA及OpenCL架构的GPU并行算法可获得较高加速比,最高加速比可达96.79,具有显著的加速效果,且具有良好的数据和平台可扩展性。  相似文献   

12.
为利用统一计算设备架构(CUDA)强大的并行处理能力实现快速图像融合,提出一种适用于并行运算的图像融合算法,包括高斯滤波、直方图均衡、基于小波变换的图像融合。通过CUDA编程对以上算法进行实现,并将其与对应的CPU程序相比较,实验结果表明,图形处理单元(GPU)执行效率比CPU高出一个数量级,并且随着数据量的增加,GPU的加速比还会增大。  相似文献   

13.
CUDA是一种较为简便的利用GPU进行通用计算的技术。研究了GPU上基于CUDA的几种向量点积算法,比较、分析了每种算法的性能。实验表明,GPU上最快的算法比CPU上的算法快了约7倍。  相似文献   

14.
锥束计算机断层扫描(Cone-Beam Computed Tomography,CBCT)具有采集速度快和空间分辨率高等特点,被生物医学等领域广泛关注。然而通过CPU串行处理CBCT重建中海量投影数据非常耗时,难以满足实时性的需求。GPU的发展为CBCT重建的并行加速提供了条件。根据三角函数周期性的特点对FDK算法进行了改进,并利用GPU实现了12幅投影数据同时并行计算。实验结果表明,相比于传统基于CPU的重建算法,基于GPU的CBCT重建算法在保证图像质量的前提下,将重建速度提高了超过310倍。  相似文献   

15.
研究基于总变分(TV)的图像去噪问题,针对中央处理器(CPU)计算速度较慢的问题,提出了在图像处理器(GPU)上并行计算的方法。考虑总变分最小问题的对偶模型,建立原始变量与对偶变量的关系,采用梯度投影算法求解对偶变量。数值实验分别在GPU与CPU上进行。实验结果表明,总变分去噪模型对偶算法在GPU设备上执行的效率高于在CPU上执行的效率,并且随着图像尺寸的增大,GPU并行计算的优势更加突出。  相似文献   

16.
GPU加速的图像匹配技术   总被引:1,自引:0,他引:1  
传统的模板图像匹配算法,匹配速度较慢。应用GPU通用高性能编程技术实现了一种加速图像匹配算法的新方法。应用CUDA编程技术对图像匹配算法进行并行化改造。采用了四种不同的存储方案,在第四种存储方案中获得了43.5倍的加速比,并对四种不同的存储方案的性能进行了深入研究。  相似文献   

17.
CUDA并行技术与数字图像几何变换   总被引:2,自引:0,他引:2  
CUDA是GPU通过并发执行多个线程以实现大规模快速并行计算能力的技术,它能使对GPU编程变得更容易。介绍了CUDA基本特性及主要编程模型,在此基础上,提出并实现了基于NVIDIA CUDA技术的图像快速几何变换。采用位置偏移增量代替原变换算法中大量乘法运算,并把CUDA技术的快速并行计算能力应用到数字图像几何变换中,解决了基于CPU的传统图像几何变换运算效率低下的问题。实验结果证明使用CUDA技术,随着处理图像尺寸的增加,对数字图像几何变换处理效率最高能够提高到近100倍。  相似文献   

18.
声辐射力弹性成像是一种新的测量组织硬度的超声成像方法。不同于其他超声组织弹性成像方法,声辐射力弹性成像能够定量测量组织的弹性模量数值,并且具有对操作者经验依赖性低的特点。然而,由于成像算法数据处理量大,运算时间长,声辐射力弹性成像还无法进行准实时的二维成像。为了获得实时的二维声辐射力弹性图像,提出并实现了一种适合于在GPU上并行计算的声辐射力弹性成像算法。通过与运行在CPU上的原始声辐射力弹性成像算法进行对比,证明在GPU上实现的算法大幅度地提高了运算速度。在自制弹性仿体上,比较了基于GPU和CPU两种算法所成的二维弹性分布图像的质量,结果证明两者的图像质量没有明显差异。  相似文献   

19.
CUDA是应用较广的GPU通用计算模型,BP算法是目前应用最广泛的神经网络模型之一。提出了用CUDA模型并行化BP算法的方法。用该方法训练BP神经网络,训练开始前将数据传到GPU,训练开始后计算隐含层和输出层的输入输出和误差,更新权重和偏倚的过程都在GPU上实现。将该方法用于手写数字图片训练练实验,与在四核CPU上的训练相比,加速比为6.12~8.17。分别用在CPU和GPU上训练得到的结果识别相同的测试集图片,GPU上的训练结果对图片的识别率比CPU上的高0.05%~0.22%。  相似文献   

20.
非结构网格的生成在时间和内存上有一定的缺陷,这里提出了一种新的方法,命名为GPU-PDMG,是基于CUDA架构的GPU并行非结构网格生成技术。该技术结合了GPU的高速并行计算能力与Delaunay三角化的优点,在英伟达GPU模块下采用CUDA程序模型,开发出了加锁并行区划分技术,通过对NACA0012翼型、多段翼型等算例进行测试,分析此方法的加速比和效率,对其计算性能展开评估。实验结果表明,GPU-PDMG优于现存在的CPU算法的速度,在保证网格质量的同时,提高了效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号