期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

CUDA加速的DNA-蛋白质匹配及其优化 总被引：1，自引：0，他引：1

陈春雷慕德俊张慧翔胡伟《电子技术应用》2013,39(9):135-138

设计实现了一种使用统一计算设备架构(CUDA)加速DNA-蛋白质匹配的方法。详细介绍了一种基于退火算法的DNA-蛋白质匹配方法和CUDA的特点,从计算的角度对匹配方法进行了分析。基于CUDA设计实现并行化方法,并根据CUDA的线程调度策略对并行方法进行了优化。实验结果表明,最大可获得15倍左右的加速比。相似文献

2.

基于CUDA技术的卷积神经网络识别算法

下载免费PDF全文

张佳康陈庆奎《计算机工程》2010,36(15):179-181

针对具有高浮点运算能力的流处理器设备GPU对神经网络的适用性问题,提出卷积神经网络的并行化识别算法,采用计算统一设备架构(CUDA)技术,并定义其上的并行化数据结构,描述计算任务到CUDA的映射机制。实验结果证明,在GTX200硬件架构的GPU上实现的并行识别算法的平均浮点运算能力峰值较CPU上串行算法提高了近60倍,更适用于神经网络的相关应用。相似文献

3.

基于GPU的H.264并行解码算法

陈鹏曹剑炜陈庆奎《计算机工程》2014,(1):283-286

针对并行处理H.264标准视频流解码问题,提出基于CPU/GPU的协同运算算法。以统一设备计算架构(CUDA)语言作为GPU编程模型,实现DCT逆变换与帧内预测在GPU中的加速运算。在保持较高计算精度的前提下,结合CUDA混合编程,提高系统的计算性能。利用NIVIDIA提供的CUDA语言,在解码过程中使DCT逆变换和帧内预测在GPU上并行实现,将并行算法与CPU单机实现进行比较,并用不同数量的视频流验证并行解码算法的加速效果。实验结果表明,该算法可大幅提高视频流的编解码效率,比CPU单机的平均计算加速比提高10倍。相似文献

4.

基于CUDA架构的FFT并行计算研究

骆岩红 ;万国峰 ;王建华《自动化与仪器仪表》2014,(12):25-28

FFT（快速傅里叶变换）是基于提高DFT（离散傅里叶变换）计算的高效算法,它在众多科学和工程领域都得到了广泛的应用。自FFT算法出现以后,从早期的以降低复杂度到近年以来的大规模并行FFT计算,各种优化算法得到广泛的研究。在并行运算领域中,随着可编程的、并行化GPU的不断推广,特别是通用并行统一计算架构CUDA的出现,极大增强了GPU的计算能力,在编程和优化等方面都有显著地提升。鉴于此,本文在分析FFT算法实现的基础上,研究了一种适合GPU运算的FFT并行计算方法,并通过CUDA架构实现了FFT算法在GPU上的运算。该方法的引入在理论不计算数据传输的情况下,使一维FFT运算时间的复杂度由O（N logN2）可以降到O（N/rlogN2）。通过验证,本文提出的CUDA的并行FFT方法得到较好的加速效果,在精度计算上也符合实际的要求,从而证明了该方法的正确性和有效性。相似文献

5.

CUDA平台下信息熵多种群遗传算法设计

李正夫王希诚李克秋姚翔董悦丽《计算机工程与应用》2016,52(1):12-16

为了进一步提高信息熵多种群遗传算法的计算效率,缩短计算时间,提出了一种基于CUDA平台的信息熵多种群遗传算法。通过分析原算法的并行因素,结合CUDA开发平台,对原算法进行适合GPU加速的并行化处理,实现了遗传算子、惩罚函数和空间收缩因子等的并行计算,有效地提高了算法效率。例题数值测试表明,在保持了快速收敛特性和计算精度的前提下,CUDA并行算法相对于原算法具有很高的加速效率。相似文献

6.

基于CUDA平台的FIR滤波算法的设计与优化

郭海凤李莉《计算机技术与发展》2014,(3):102-105,167

针对目前基于普通DSP的FIR算法速度低、扩展性差的缺点,提出并实现基于CUDA平台实现的FIR滤波算法。由于在CUDA中程序可以直接操作数据而无需借助于图形系统的API,使开发者能够在GPU 强大计算能力的基础上建立起一种效率更高的密集数据计算解决方案。该算法将CUDA用于FIR滤波器输入输出关系计算,采用矩阵乘法的并行运算技术,在GPU上建立并行滤波模型,并对算法进行了优化。实验结果表明,在Tesla C1060平台上,和传统的基于DSP的FIR滤波算法计算速度相比,基于CUDA平台计算FIR滤波算法时,其加速比可接近30,解决了传统基于DSP计算FIR滤波算法速度较慢、扩展性差的问题。相似文献

7.

一种基于OpenCL的高能效并行KNN算法及其GPU验证

《电子技术应用》2016,(2):14-16

近年来数据分类技术已经被广泛应用于各类问题中,作为最重要的分类算法之一,K最近邻法(KNN)也被广泛使用。在过去的近50年,人们就如何提高KNN的并行性能做出巨大努力。基于CUDA的KNN并行实现算法——CUKNN算法证明KNN在GPU上的并行实现比在CPU上串行实现的速度提升数十倍,然而,CUDA在实现过程中包含了大量的冗余计算。提出了一种并行冒泡的新型KNN并行算法,并通过OpenCL,在以GPU作为计算核心的异构系统上进行验证,结果显示提出的方法比CUDA快16倍。相似文献

8.

基于CUDA平台的遗传算法并行实现研究 总被引：2，自引：0，他引：2

下载免费PDF全文

谭彩凤马安国邢座程《计算机工程与科学》2009,31(Z1)

CUDA技术方便程序员在GPU上进行通用计算,但并没有提供随机数产生的应用接口。为此,本文提出并实现在CUDA开发平台上并行产生均匀随机数算法,测试证明算法可行。在此基础上优化基本遗传算法,并在GPU上并行实现其所有操作,提高其运行速度和准确度;分析了种群大小和遗传代数对此算法加速比及准确度的影响,并与MAT-LAB工具箱进行比较。实验表明,相比MATLAB遗传算法工具箱,基于CUDA平台实现的遗传算法性能更高,准确度更好。相似文献

9.

基于CUDA的并行粒子群优化算法的设计与实现 总被引：1，自引：0，他引：1

蔡勇李光耀王琥《计算机应用研究》2013,30(8):2415-2418

针对处理大量数据和求解大规模复杂问题时粒子群优化(PSO)算法计算时间过长的问题, 进行了在显卡(GPU)上实现细粒度并行粒子群算法的研究。通过对传统PSO算法的分析, 结合目前被广泛使用的基于GPU的并行计算技术, 设计实现了一种并行PSO方法。本方法的执行基于统一计算架构（CUDA）, 使用大量的GPU线程并行处理各个粒子的搜索过程来加速整个粒子群的收敛速度。程序充分使用CUDA自带的各种数学计算库, 从而保证了程序的稳定性和易写性。通过对多个基准优化测试函数的求解证明, 相对于基于CPU的串行计算方法, 在求解收敛性一致的前提下, 基于CUDA架构的并行PSO求解方法可以取得高达90倍的计算加速比。相似文献

10.

基于CUDA的并行联程路径搜索算法

贺怀清杨国鑫李建伏《电脑学习》2013,3(1)

随着民航业的蓬勃发展,形成了庞大的航线网络,在众多城市间有很多航线可供选择.如何快速地从如此庞大的网络中得到K条最短路径(K-Shortest-Path,简称KSP)成了联程路径搜索的瓶颈.采用Yen算法求解航线网络中的KSP问题,并在CUDA平台下实现其并行化.并行的基本策略是借助GPU平台并行的松弛每个节点的相关边.最后,通过在CUDA平台下的实验结果表明,与串行Yen算法计算相比,基于CUDA的并行Yen的计算速度得到了很大的提高. 相似文献

11.

CUDA架构下大规模稠密线性方程组的并行求解 总被引：1，自引：0，他引：1

下载免费PDF全文

杨梅李志民曹大勇《计算机工程与应用》2011,47(32):27-30

在Gauss-Jordan消去法的基础上,给出了一种适应于CUDA架构的改进Gauss-Jordan消去并行算法。通过分析该方法的处理过程以及CUDA架构的相应限制,在CUDA的grid-block-thread三层组织结构的基础上,从算法构造的角度提出了grid-strip-group-block-thread五层结构,给出了基础行以及全局基础行等概念,并构建了适应于CUDA架构的Gauss-Jordan消去法的并行版本,在最高维数为4 000维的大规模稠密线性方程组的算例求解上与串行Gauss-Jordan消去法进行了比较,实验结果表明,该算法能够充分利用GPU的硬件特性,有效地降低了大规模稠密线性方程组的求解时间。相似文献

12.

基于CUDA的图像轮廓提取并行实现

吴松城《电脑与微电子技术》2012,(6):55-57,61

对图像轮廓提取进行并行实现,介绍基于形态水平集的图像轮廓提取算法,对该算法的并行可行性进行分析,并采用CUDA技术并行实现。与串行的方式实现比较,采用CUDA技术实现可以节省更多的时间,得出CUDA并行技术在需要大量数据计算时加速的有效性。相似文献

13.

基于CUDA的并行K-近邻连接算法实现

潘茜张育平陈海燕《计算机科学》2016,43(10):190-192, 219

针对大规模空间数据的K-近邻连接查询问题,设计了一种CUDA编程模型下K-近邻连接算法的并行优化方法。将K-近邻连接算法的并行过程分两个阶段:1)对参与查询的数据集P和Q分别建立R-Tree索引;2)基于R-Tree索引进行KNNJ查询。首先根据结点所在位置划分最小外包框,在CUDA下基于递归网格排序算法创建R-Tree索引。然后在CUDA下基于R-Tree索引进行KNNJ查询,其中涉及并行求距离和并行距离排序两个阶段:求距离阶段利用每一个线程计算任意两点之间的距离,点与点之间距离的求取无依赖并行;排序阶段将快速排序基于CUDA以实现并行化。实验结果表明,随着样本量的不断增大,基于R-Tree索引的并行K-近邻连接算法的优势更加明显,具有高效性和可扩展性。相似文献

14.

基于CUDA的汇流分析并行算法的研究与实现* 总被引：2，自引：0，他引：2

赵向辉苗青付忠良苏畅李昕《计算机应用研究》2010,27(7):2445-2447

针对基于数字高程模型（DEM）生成流域等流时线的快速运算问题,提出了一种基于统一设备计算架构（CUDA）平台同时可发挥图形处理器（GPU）并行运算特性的汇流分析的快速并行算法。采用改进后的归并排序算法进行数据排序及新的内存分配策略和改进的并行算法进行汇流分析。用该并行算法和CPU上的串行算法, 对生成基于DEM的等流时线运算时间和矩阵乘法运算时间进行分析验证。实验结果表明,基于CUDA的汇流分析并行算法能提高系统的计算效率,具有较好的效果。相似文献

15.

基于CUDA海量空间数据实时体绘制研究 总被引：1，自引：0，他引：1

俞洲孟新彭晓东《计算机工程与设计》2012,33(2):688-694

针对海量空间科学数据的精细及实时三维绘制需求,提出并实现了一种基于CUDA语言的并行化光线投射体绘制加速算法,利用传统体绘制算法中光线投射法的可并行特点和GPU中高速的纹理查询的优点,通过一个实际坐标到纹理坐标的转换函数实现了对不规则采样数据的准确采样,并完成了绘制算法的CUDA并行化改造,通过CUDA语言利用GPU强大的并行计算能力实现了对海量空间数据的实时三维光线投射绘制. 相似文献

16.

基于CUDA架构的三维CPML-FDTD并行方法

下载免费PDF全文

胡媛李康孔凡敏杜刘革《计算机工程与应用》2011,47(25):220-223

为解决时域有限差分（FDTD）算法应用于电大尺寸目标仿真的巨大耗时问题,应用FDTD算法的并行特性和通用图形处理器（GPGPU）技术,实现了一种基于计算统一设备架构（CUDA）的三维FDTD并行计算方法,采用了时域卷积完全匹配层（CPML）吸收边界条件模拟开域空间,对不同网格数目标仿真计算。进一步结合FDTD算法和CUDA的特点进行了优化,当计算空间元胞数在十万数量级及以上时,优化前后GPU运算相对于同时期的CPU分别可获得10和25倍以上的加速,结果表明该方法较适合用于实际电磁问题的仿真。相似文献

17.

RSA算法的CUDA高效实现技术 总被引：1，自引：1，他引：0

下载免费PDF全文

孙迎红童元满王志英《计算机工程与应用》2011,47(2):84-87

CUDA（Compute Unified Device Architecture）作为一种支持GPU通用计算的新型计算架构,在大规模数据并行计算方面得到了广泛的应用。RSA算法是一种计算密集型的公钥密码算法,给出了基于CUDA的RSA算法并行化高效实现技术,其关键为引入大量独立并发的Montgomery模乘线程,并给出了具体的线程组织、数据存储结构以及基于共享内存的性能优化实现技术。根据RSA算法CUDA实现方法,在某款GPU上测试了RSA算法的运算性能和吞吐率。实验结果表明,与RSA算法的通用CPU实现方式相比,CUDA实现能够实现超过40倍的性能加速。相似文献

18.

基于CUDA的SAR成像CS算法研究

高跃清张焱刘伟光《计算机与网络》2012,(7):55-57

针对通用计算平台下SAR成像算法效率低下的问题,提出了一种基于CUDA的SAR成像算法并行化实现方法。在分析CUDA工作原理及CS算法并行性特征的基础上,详细描述了算法每个步骤的CUDA实现。实验结果表明了该算法的高效性,优化后的CS算法提速比达到了10～20倍。相似文献