期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张楠王建立王鸣浩《计算机科学》2010,37(1):265-267

边缘检测是一种高度并行的算法,计算量较大,传统的CPU处理难以满足实时要求。针对图像边缘检测问题的计算密集性,在分析常用边缘检测算法的基础上,利用CUDA(Compute Unified Device Architecture,计算统一设备架构)软硬件体系架构,提出了图像边缘检测的GPU(Graphics Processing Unit,图形处理器)实现方案。首先介绍GPU高强度并行运算的体系结构基础,并将Roberts和Sobel这两个具有代表性的图像边缘检测算法移植到GPU,然后利用当前同等价格的CPU和GPU进行对比实验,利用多幅不同分辨率图像作为测试数据,对比CPU和GPU方案的计算效率。实验结果表明,与相同算法的CPU实现相比,其GPU实现获得了相同的处理效果,并将计算效率最高提升到了17倍以上,以此证明GPU在数字图像处理的实际应用中大有潜力。相似文献

2.

并行处理技术在雷达数据处理中的应用研究

朱海涛倪世道《计算技术与自动化》2013,(2):109-114

为了解决雷达数据处理系统数据量日益增大,计算能力逐渐不足的问题,提出两种并行处理方法。第一种方法是对数据处理各步骤中的循环采用多个线程并行处理,属于细粒度并行;第二种方法是根据雷达数据的局部性特征,把雷达探测空域按照径向距离划分成多个部分,由多个子任务并行处理,属于粗粒度并行。实验结果显示,4线程细粒度并行雷达数据处理架构性能是原来的3倍,4任务粗粒度并行架构性能是原来的5倍,证明并行处理技术在雷达数据处理中的有效性,并且任务级的粗粒度并行架构更适合雷达数据处理。相似文献

3.

多核CPU和GPU加速分子动力学模拟

林江宏林锦贤吕暾《计算机应用》2011,31(3):843-847

在多核中央处理器(CPU)—图形处理器(GPU)异构并行体系结构上,采用OpenMP和计算统一设备架构(CUDA)编程实现了基于AMBER力场的蛋白质分子动力学模拟程序。通过合理地将程序划分为CPU单线程、CPU多线程和GPU多线程执行部分,高效地利用了计算机的处理能力。性能测试结果表明,相对于优化后的CPU串行计算,多核CPU-GPU异构并行计算模型有强大的性能优势,特别是将占整个程序执行时间90%的作用力的计算移植到GPU上执行,获得了最高可达12倍的计算加速比。相似文献

4.

一种基于Dual-GPU的三次卷积插值并行算法研究

赖积保孟圆余涛王玉璟林英豪吕天然《计算机科学》2013,40(8):24-27,33

针对传统三次卷积插值算法实现遥感图像放大在运算规模、计算速度等方面的不足,结合GPU的高性能计算优势,提出一种基于Dual-GPU(Graphic Processing Unit)的三次卷积插值并行算法(CCPA),即应用GPU的高性能计算技术将传统的三次卷积插值算法进行并行化处理,将图像的像素点个数平均分配给每个线程块,每个线程针对一个像素,线程在GPU中同时执行,以提高其插值效率。实验结果表明,该算法在保持放大后图像质量的同时,速度得到提升,随着图像分辨率的增大,该算法的优势更明显,在分辨率10240*10240的情况下,用GPU处理的速度比CPU提升了97.7%,用双GPU处理的速度是单GPU的2倍,并且在对放大遥感图像的质量和实时性均要求较高如地震、洪水等灾害的情况下,该算法具有实用价值。相似文献

5.

图形处理器空间插值并行算法的实现

下载免费PDF全文

赵艳伟程振林董慧方金云《中国图象图形学报》2012,17(4):575-581

空间插值是地理信息系统(GIS)空间分析中计算复杂且耗时的操作,因此无法满足实时性的要求。随着图形处理器(GPU)浮点计算能力的大幅提高,GPU通用计算已成为处理GIS领域内复杂计算的研究热点。为实时化一些传统低效的算法提供了良好的契机。利用GPU在并行计算上的优势,将反距离加权法插值算法映射到了统一计算设备架构(CUDA)并行编程架构。首先在GPU中建立二级索引使计算层次得到了合理的划分,然后利用多线程分块策略执行并行插值计算。最后通过实验表明,该方法的插值误差与CPU方法相比能控制在10-6数量级,并且在插值半径较大插值数据较多的情况下,该算法可达到40倍以上的加速比。充分证明了该方法的正确性及高效性。相似文献

6.

PMVS算法的CPU多线程和GPU两级粒度并行策略

刘金硕江庄毅徐亚渤邓娟章岚昕《计算机科学》2017,44(2):296-301

PMVS(Patch-based Multi-View Stereo)三维重建算法被广泛应用于无人机航拍影像的三维场景重建中。针对PMVS三维重建算法计算量大、时间复杂度高的问题,提出了PMVS算法的CPU多线程和GPU两级粒度并行策略(Multithread and GPU Parallel Schema,MGPS),方法具体包括:基于GPU的PMVS算法特征提取和片面扩散的并行设计;多影像的GPU和CPU任务分配机制,以使得部分任务分配给CPU采用多线程并行,部分任务分配给GPU并行时,程序总运行时间最短。实验采用搭载24核CPU和NVIDIA Tesla K20 GPU的高性能服务器作为测试平台,针对分辨率为4081×2993的16幅无人机影像进行三维重建。实验结果表明,相比串行的PMVS算法,基于MGPS的PMVS算法取得4倍左右的加速比,其中特征提取最高加速13倍,计算误差在10%以内,该方法实现了更高效的PMVS三维重建。基于MGPS的PMVS算法还可用于文物保护、医学图像处理、虚拟现实等领域。相似文献

7.

基于GPGPU的数字图像并行化预处理 总被引：2，自引：0，他引：2

宋晓丽王庆《计算机测量与控制》2009,17(6):1169-1171

首先简要介绍了统一设备架构CUDA(Compute Unified Device Architecture)技术的背景、特点、内存模型,利用通用计算图形处理单元GPGPU(General Purpose GPU)及CUDA技术,实现了图像直方图均衡化和薄云去除的并行化处理,与传统的基于CPU的方法相比,两个基于GPGPU的图像预处理操作的执行效率分别提高了40倍与80倍左右,在大规模实时性图像处理操作中,有很大的实用价值。相似文献

8.

基于CUDA的并行粒子群优化算法的设计与实现 总被引：1，自引：0，他引：1

蔡勇李光耀王琥《计算机应用研究》2013,30(8):2415-2418

针对处理大量数据和求解大规模复杂问题时粒子群优化(PSO)算法计算时间过长的问题, 进行了在显卡(GPU)上实现细粒度并行粒子群算法的研究。通过对传统PSO算法的分析, 结合目前被广泛使用的基于GPU的并行计算技术, 设计实现了一种并行PSO方法。本方法的执行基于统一计算架构（CUDA）, 使用大量的GPU线程并行处理各个粒子的搜索过程来加速整个粒子群的收敛速度。程序充分使用CUDA自带的各种数学计算库, 从而保证了程序的稳定性和易写性。通过对多个基准优化测试函数的求解证明, 相对于基于CPU的串行计算方法, 在求解收敛性一致的前提下, 基于CUDA架构的并行PSO求解方法可以取得高达90倍的计算加速比。相似文献

9.

一种基于GPU加速的细粒度并行蚁群算法 总被引：1，自引：0，他引：1

李建明胡祥培庞占龙钱昆明《控制与决策》2009,24(8)

为改善蚁群算法对大规模旅行商问题的求解性能,提出一种基于图形处理器(GPU)加速的细粒度并行蚁群算法.将并行蚁群算法求解过程转化为统一计算设备架构的线程块并行执行过程,使得蚁群算法在GPU中加速执行.实验结果表明,该算法能提高全局搜索能力,增大细粒度并行蚁群算法的蚂蚁规模,从而提高了算法的运算速度. 相似文献

10.

基于GPU的多层次并行QR分解算法研究

穆帅王晨曦邓仰东《计算机仿真》2013,30(9)

QR分解作为一个基本计算模块,广泛应用在图像处理、信号处理、通信工程等众多领域.传统的并行QR分解算法只能挖掘计算过程中的数据级并行.在分析快速Givens Rotation分解特征的基础上,提出了一种多层次并行算法,能够同时挖掘计算过程中的任务级并行和数据级并行,非常适合于以图形处理器(GPU)为代表的大规模并行处理器.同时,采用GPU的并行QR分解算法可以作为基本运算模块被GPU平台上的众多应用程序直接调用.实验结果显示,与CPU平台上使用OpenMP实现的算法相比,基于GPU的多层次并行算法能够获得5倍以上的性能提升,而调用QR分解模块的奇异值分解(SVD)应用可以获得3倍以上的性能提升. 相似文献