期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

鲁亚楠鲁恒亚潘红兵《计算机工程》2014,(5):285-288,294

反投影算法是一种基于时域处理的雷达成像算法。针对该算法运算效率低、处理速度慢的问题,通过分析反投影算法的原理及其运算过程,提出一种算法并行化加速方法,即基于现场可编程门阵列,将算法中的反投影运算单元设计成专用的反投影运算硬件加速模块,并通过模块内的流水线处理及多个模块间的并行计算提高该算法的运算效率。运用该方法对2 048×4 096大小的目标网格点进行反投影成像,成像时间为139 s,平均单点成像时间是基于GPU加速方法的3倍,并且成像结果和计算机成像结果误差极小。实验结果表明,该并行化方法可有效提高反投影算法的运算效率。相似文献

2.

基于GPU的H.264并行解码算法

陈鹏曹剑炜陈庆奎《计算机工程》2014,(1):283-286

针对并行处理H.264标准视频流解码问题,提出基于CPU/GPU的协同运算算法。以统一设备计算架构(CUDA)语言作为GPU编程模型,实现DCT逆变换与帧内预测在GPU中的加速运算。在保持较高计算精度的前提下,结合CUDA混合编程,提高系统的计算性能。利用NIVIDIA提供的CUDA语言,在解码过程中使DCT逆变换和帧内预测在GPU上并行实现,将并行算法与CPU单机实现进行比较,并用不同数量的视频流验证并行解码算法的加速效果。实验结果表明,该算法可大幅提高视频流的编解码效率,比CPU单机的平均计算加速比提高10倍。相似文献

3.

基于GPU的Gabor人脸图像特征提取算法的研究

潘峥嵘李伟池《计算机与数字工程》2013,41(4)

论文针对传统Gabor小波计算在人脸图像特征提取中实时性较弱的问题,提出了一种基于GPU并行计算的Gabor小波特征提取方法.所提算法将Gabor小波与人脸图像的卷积运算在GPU(Graphic Processing Unit图形处理器)上并行实现,并采用CUDA (Com pute Unified Device Architecture)编程模型,利用多线程并行映射实现.与传统的Gabor小波人脸特征提取算法对比实验表明,文中方法的计算速度在CPU上速度提高了近12倍,为人脸特征实时提取提供了有效的技术保障. 相似文献

4.

基于GPU多流并发并行模型的NDVI提取算法

左宪禹张哲苏岳瀚刘扬葛强田军锋《计算机科学》2020,47(4):25-29

利用GPU进行加速的归一化差分植被指数(Normalized Differential Vegetation Index,NDVI)提取算法通常采用GPU多线程并行模型,存在弱相关计算之间以及CPU与GPU之间数据传输耗时较多等问题,影响了加速效果的进一步提升。针对上述问题,根据NDVI提取算法的特性,文中提出了一种基于GPU多流并发并行模型的NDVI提取算法。通过CUDA流和Hyper-Q特性,GPU多流并发并行模型可以使数据传输与弱相关计算、弱相关计算与弱相关计算之间达到重叠,从而进一步提高算法并行度及GPU资源利用率。文中首先通过GPU多线程并行模型对NDVI提取算法进行优化,并对优化后的计算过程进行分解,找出包含数据传输及弱相关性计算的部分;其次,对数据传输和弱相关计算部分进行重构,并利用GPU多流并发并行模型进行优化,使弱相关计算之间、弱相关计算和数据传输之间达到重叠的效果;最后,以高分一号卫星拍摄的遥感影像作为实验数据,对两种基于GPU实现的NDVI提取算法进行实验验证。实验结果表明,与传统基于GPU多线程并行模型的NDVI提取算法相比,所提算法在影像大于12000*12000像素时平均取得了约1.5倍的加速,与串行提取算法相比取得了约260倍的加速,具有更好的加速效果和并行性。相似文献

5.

基于OpenCL的并行kNN算法设计与实现

杨朋霖冯百明周志阳温向慧《计算机工程与科学》2017,39(12):2198-2202

kNN算法是机器学习和数据挖掘程序中经常使用的经典算法。随着数据量的增大,kNN算法的执行时间急剧上升。为了有效利用现代计算机的GPU等计算单元减少kNN算法的计算时间,提出了一种基于OpenCL的并行kNN算法,该算法对距离计算和排序两个瓶颈点进行并行化,在距离计算阶段使用细粒度并行化策略和优化的线程模型,排序阶段使用优化内存模型的双调排序。以UCI数据集letter为测试集,分别使用E8400和GTS450运行kNN算法进行测试,采用GPU加速的并行kNN算法的计算速度比CPU版提高了40.79倍。相似文献

6.

基于CUDA的热传导GPU并行算法研究

孟小华黄丛珊朱丽莎《计算机工程》2014,(5):41-44,48

在热传导算法中,使用传统的CPU串行算法或MPI并行算法处理大批量粒子时,存在执行效率低、处理时间长的问题。而图形处理单元(GPU)具有大数据量并行运算的优势,为此,在统一计算设备架构(CUDA)并行编程环境下,采用CPU和GPU协同合作的模式,提出并实现一个基于CUDA的热传导GPU并行算法。根据GPU硬件配置设定Block和Grid的大小,将粒子划分为若干个block,粒子输入到GPU显卡中并行计算,每一个线程执行一个粒子计算,并将结果传回CPU主存,由CPU计算出每个粒子的平均热流。实验结果表明,与CPU串行算法在时间效率方面进行对比,该算法在粒子数到达16 000时,加速比提高近900倍,并且加速比随着粒子数的增加而加速提高。相似文献

7.

基于OpenCL的尺度不变特征变换算法的并行设计与实现

许川佩王光《计算机应用》2016,36(7):1801-1806

针对尺度不变特征变换（SIFT）算法实时性差的问题,提出了利用开放式计算语言（OpenCL）并行优化的SIFT算法。首先,通过对原算法各步骤进行组合拆分、重构特征点在内存中的数据索引等方式对原算法进行并行化重构,使得算法的中间计算结果能够完全在显存中完成交互;然后,采用复用全局内存对象、共享局部内存、优化内存读取等策略对原算法各步骤进行并行设计,提高数据读取效率,降低传输延时;最后,利用OpenCL语言在图形处理单元（GPU）上实现了SIFT算法的细粒度并行加速,并在中央处理器（CPU）上完成了移植。与原SIFT算法配准效果相近时,并行化的算法在GPU和CPU平台上特征提取速度分别提升了10.51～19.33和2.34～4.74倍。实验结果表明,利用OpenCL并行加速的SIFT算法能够有效提高图像配准的实时性,并能克服统一计算设备架构（CUDA）因移植困难而不能充分利用异构系统中多种计算核心的缺点。相似文献

8.

面向异构架构的传递闭包并行算法

肖汉郭宝云李彩林周清雷《计算机工程》2021,47(8):131-139

传统求图传递闭包的方法存在计算量大与计算时间长的问题。为加快处理大数据量的传递闭包算法的计算速度,结合算法密集计算和开放式计算语言（OpenCL）框架的特征,采用本地存储器优化的并行子矩阵乘和分块的矩阵乘并行计算,提出一种基于OpenCL的传递闭包并行算法。利用本地存储器优化的并行子矩阵乘算法来优化计算步骤,提高图形处理器（GPU）的存储器利用率,降低数据获取延迟。通过分块矩阵乘并行计算算法实现大数据量的矩阵乘,提高GPU计算核心的利用率。数据结果表明,与CPU串行算法、基于开放多处理的并行算法和基于统一设备计算架构的并行算法相比,传递闭包并行算法在OpenCL架构下NVIDIA GeForce GTX 1070计算平台上分别获得了593.14倍、208.62倍和1.05倍的加速比。相似文献

9.

基于GPU的多层次并行QR分解算法研究

穆帅王晨曦邓仰东《计算机仿真》2013,30(9)

QR分解作为一个基本计算模块,广泛应用在图像处理、信号处理、通信工程等众多领域.传统的并行QR分解算法只能挖掘计算过程中的数据级并行.在分析快速Givens Rotation分解特征的基础上,提出了一种多层次并行算法,能够同时挖掘计算过程中的任务级并行和数据级并行,非常适合于以图形处理器(GPU)为代表的大规模并行处理器.同时,采用GPU的并行QR分解算法可以作为基本运算模块被GPU平台上的众多应用程序直接调用.实验结果显示,与CPU平台上使用OpenMP实现的算法相比,基于GPU的多层次并行算法能够获得5倍以上的性能提升,而调用QR分解模块的奇异值分解(SVD)应用可以获得3倍以上的性能提升. 相似文献

10.

基于GPU的并行协同过滤算法

许建林泳秦勇黄翰《计算机应用研究》2013,30(9):2656-2659

为提高协同过滤算法的可伸缩性, 加快其运行速度, 提出了一种基于GPU（graphic processing unit）的并行协同过滤算法来实现高速并行处理。GPU的运算模式采用单指令多数据流, 适用于逻辑性弱、数据量巨大的运算, 而这正是协同过滤算法所具有的特点。使用统一计算设备框架（compute unified device architecture, CUDA）实现了此协同过滤算法。实验表明, 在中低端的GPU上该算法与在高端的四核CPU上的协同过滤算法相比, 其加速比达到40倍以上, 显著地提高了算法的可伸缩性, 而算法在准确率方面也有优秀的表现。相似文献

11.

基于CUDA架构的FFT并行计算研究

骆岩红 ;万国峰 ;王建华《自动化与仪器仪表》2014,(12):25-28

FFT（快速傅里叶变换）是基于提高DFT（离散傅里叶变换）计算的高效算法,它在众多科学和工程领域都得到了广泛的应用。自FFT算法出现以后,从早期的以降低复杂度到近年以来的大规模并行FFT计算,各种优化算法得到广泛的研究。在并行运算领域中,随着可编程的、并行化GPU的不断推广,特别是通用并行统一计算架构CUDA的出现,极大增强了GPU的计算能力,在编程和优化等方面都有显著地提升。鉴于此,本文在分析FFT算法实现的基础上,研究了一种适合GPU运算的FFT并行计算方法,并通过CUDA架构实现了FFT算法在GPU上的运算。该方法的引入在理论不计算数据传输的情况下,使一维FFT运算时间的复杂度由O（N logN2）可以降到O（N/rlogN2）。通过验证,本文提出的CUDA的并行FFT方法得到较好的加速效果,在精度计算上也符合实际的要求,从而证明了该方法的正确性和有效性。相似文献

12.

基于Chan-Vese模型的面向多核CPU和GPU的人脸轮廓提取并行算法

王丽娜史晓华《计算机应用》2014,34(11):3121-3125

针对人脸轮廓提取中Chan-Vese模型计算量大、分割速度缓慢等问题,采用开放计算语言(OpenCL)并行编程模型,提出了一种基于图形处理器(GPU)和多核CPU加速的并行算法。该算法首先将模型的框架进行重构,消除模型中的数据依赖关系;然后,利用开放计算语言对算法进行并行化以及相应的优化。实验结果表明,与单线程算法相比,在NVIDIA GTX660和AMD FX-8530下达到了较高的加速比。相似文献

13.

基于GPU的低密度奇偶校验码译码加速技术

徐启迪刘争红郑霖《计算机应用》2022,42(12):3841-3846

随着通信技术的发展,通信终端逐渐采用软件的方式来兼容多种通信制式和协议。针对以计算机中央处理器（CPU）作为运算单元的传统软件无线电架构,无法满足高速无线通信系统如多进多出（MIMO）等宽带数据的吞吐率要求问题,提出了一种基于图形处理器（GPU）的低密度奇偶校验（LDPC）码译码器的加速方法。首先,根据GPU并行加速异构计算在GNU Radio 4G/5G物理层信号处理模块中的加速表现的理论分析,采用了并行效率更高的分层归一化最小和（LNMS）算法;其次,通过使用全局同步策略、合理分配GPU内存空间以及流并行机制等方法减少了译码器的译码时延,同时配合GPU多线程并行技术对LDPC码的译码流程进行了并行优化;最后,在软件无线电平台上对提出的GPU加速译码器进行了实现与验证,并分析了该并行译码器的误码率性能和加速性能的瓶颈。实验结果表明,与传统的CPU串行码处理方式相比,CPU+GPU异构平台对LDPC码的译码速率可提升至原来的200倍左右,译码器的吞吐量可以达到1 Gb/s以上,特别是在大规模数据的情况下对传统译码器的译码性有着较大的提升。相似文献

14.

A GPU implementation of a hybrid evolutionary algorithm: GPuEGO

J. M. García-Martínez E. M. Garzón P. M. Ortigosa 《The Journal of supercomputing》2014,70(2):684-695

The high computation requirements of global optimization algorithms, when used to solve real optimization problems, have caused the appearance of different parallelization strategies using several parallel computing architectures. In this work, the Universal Evolutionary Global Optimizer is implemented in CUDA to be run on GPU architectures (GPuEGO). This parallelization of the referred evolutionary multimodal optimization algorithm is rather different from other previous parallel implementations designed to be executed into shared or distributed memory processors. In this case, due to the special characteristics of a GPU architecture, the original data structures are not valid and it has been necessary to redefine them and all the functions that operate with them. When this approach is applied the acceleration factors achieved by GPuEGO range from \({\times }\) 6.33 to \({\times }\) 23.20 depending on the test function. 相似文献

15.

CudaFilters: A SignalPlant library for GPU‐accelerated FFT and FIR filtering

下载免费PDF全文

Petr Nejedly Filip Plesinger Josef Halamek Pavel Jurak 《Software》2018,48(1):3-9

Signal filtering is one of the essential tasks in signal processing. It may become an extremely time‐consuming process, as in the case of intracranial electroencephalogram recordings (eg, 30‐min records) with a large number of channels (up to 256) and high sampling frequencies (up to 5 kHz in research related to ultra‐high‐frequency oscillations). The usual way of dealing with time consumption is process parallelization. Moreover, parallelization using graphic processing unit (GPU) allows further shortening of computing times thanks to the large number of GPU cores. This paper describes a library for GPU‐accelerated finite impulse response (FIR) and fast Fourier transform (FFT) filtering—“CudaFilters.” This library is designed for SignalPlant software—a free tool for signal analysis. The resultant acceleration in computing times was 5× to 40× depending on the task, data, and hardware configuration. The results were also compared to computing speeds in Matlab. 相似文献

16.

基于Fork/Join框架的等值面快速生成并行算法

鲍婷婷焦圣明殷笑茹陈景丽牛霭琛《计算机技术与发展》2020,(3):187-193

针对传统串行等值面提取算法在处理离散点数量多、网格点密度大的数据时生成效率差的问题,提出一种新的基于Fork/Join框架下的等值面快速生成并行算法。通过对传统串行算法中的关键步骤进行并行计算可行性分析,提出可以实施并行计算的四个单独步骤:离散点数据网格化处理、等值点计算、等值线追踪与光滑、等值面标记识别。通过将并行计算作用于等值面生成的这四个步骤中,减少了等值面计算的执行时间,加快了等值面的生成速度。实验结果表明,在数据计算量较大时,与传统串行算法相比,并行算法能在2秒内快速生成等值面,最大加速比高于5.0,提高了等值面的生成效率并取得了良好的绘制效果,满足了高实时性的业务需求。相似文献

17.

基于GPU的多重网格Navier-Stokes解算器并行优化方法研究

刘冰陆忠华李新亮胡晓东《数据与计算发展前沿》2013,4(3):56-67

随着工业计算需求的激增,计算流体力学 (Computational Fluid Dynamics, CFD) 学科对计算效率问题越来越重视。作者基于自行开发的 Navier-Stokes 解算器,引入多重网格加速收敛算法,并结合NVIDIA GPU 计算平台,从数值方法和高性能计算两个方面为 CFD 实现加速。数值加速算例测试结果表明,基于多重网格算法的 GPU 解算器相对 CPU 版本代码双精度可获得 45 倍以上的加速。相似文献