期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘杰刘兴平迟利华胡庆丰《计算机学报》2006,29(3):495-499

通过改变CR算法的计算次序。提出了一种改进的共轭剩余（ICR）算法．对比CR算法。ICR算法的数值稳定性和CR算法相同,几乎没有增加计算量。但考虑了在MIMD并行机上实现时并行算法的性能,其同步开销减少为CR算法的一半,并且所有内积计算以及矩阵向量乘是独立的,没有数据相关性。可以进行计算与通信的重叠．从理论和实验两个角度来讨论ICR算法的性能,当处理机台数较多时ICR算法的计算速度快于CR算法．在64台处理机机群上进行的数值实验表明,并行ICR算法的计算速度大约比CR算法快30％．相似文献

2.

基于CUDA平台的遗传算法并行实现研究 总被引：2，自引：0，他引：2

下载免费PDF全文

谭彩凤马安国邢座程《计算机工程与科学》2009,31(Z1)

CUDA技术方便程序员在GPU上进行通用计算,但并没有提供随机数产生的应用接口。为此,本文提出并实现在CUDA开发平台上并行产生均匀随机数算法,测试证明算法可行。在此基础上优化基本遗传算法,并在GPU上并行实现其所有操作,提高其运行速度和准确度;分析了种群大小和遗传代数对此算法加速比及准确度的影响,并与MAT-LAB工具箱进行比较。实验表明,相比MATLAB遗传算法工具箱,基于CUDA平台实现的遗传算法性能更高,准确度更好。相似文献

3.

一种基于CUDA的并行多目标进化算法

胡宾宾祁荣宾钱锋《计算机与应用化学》2015,32(1)

传统的多目标进化算法多是基于Pareto最优概念的类随机搜索算法,求解速度较慢,特别是当问题维度变高,需要群体规模较大时,上述问题更加凸显。这一问题已经获得越来越多研究人员以及从业人员的关注。实验仿真中可以发现,构造非支配集和保持群体多样性这两部分工作占用了算法99%以上的执行时间。解决上述问题的一个有效方法就是对这一部分算法进行并行化改造。本文提出了一种基于CUDA平台的并行化解决方案,采用小生境技术实现共享适应度来维持候选解集的多样性,将多目标进化算法的实现全部置于GPU端,区别于以往研究中非支配排序的部分工作以及群体多样性保持的全部工作仍在CPU上执行。通过对ZDT系列函数的仿真结果,可以看出本文算法性能远远优于NSGA-Ⅱ和NPGA。最后通过求解油品调和过程这一有约束多目标优化问题,可以看出在解决化工应用中的有约束多目标优化问题时,该算法依然表现出优异的加速效果。相似文献

4.

结合GPU技术的并行CP张量分解算法

武昱闫光辉王雅斐马青青刘宇轩《计算机科学》2018,45(11):298-303, 317

随着高维数据的涌现,张量和张量分解方法在数据分析领域中受到了广泛关注。然而,张量数据的高维度和稀疏特性,导致算法的复杂度较高, 阻碍了张量分解算法在实际中的应用。许多学者通过引入并行计算来提升张量分解算法的计算效率。在现有研究的基础上,给出一种简化计算Khatri-Rao乘积的GPU并行CP张量分解算法,称为ParSCP-ALS。在模拟数据集和真实数据集上的实验结果显示, 相比现有并行算法,文中设计的ParSCP-ALS算法能有效提高CP张量分解的计算效率,其中在Movielens数据集上的计算时间减少了约58%。相似文献

5.

基于CUDA的拉普拉斯金字塔的优化

《微型机与应用》2016,(10):40-42

提出了基于CUDA的并行拉普拉斯金字塔算法。算法采用的并行拉普拉斯算法很好地解决了共享存储器的bank冲突和全局存储器的合并访问的问题,为了最大化并行效率,计算了SM占用率,并通过公式进行了论证。在GTX480平台下,基于CUDA的并行拉普拉斯金字塔算法获得了几十倍的加速比。最后,将基于CUDA的并行拉普拉斯金字塔算法成功地应用于图像融合和增强图片的细节处理,充分证明了并行拉普拉斯金字塔算法广泛的有效性和必要性。相似文献

6.

基于GPU的JPEG压缩算法实现

李杰刘灏马恩财刘明锋《数字社区&智能家居》2014,(26):6158-6160

图形处理器(Graphic Processing Unit),简称GPU,是针对多线程程序对吞吐量进行优化的处理器,在硬件设计上属于众核架构,非常适合于大规模并行计算任务。JPEG图像压缩作为计算密集型的矩阵数据运算,用GPU技术对JPEG算法进行实现,能充分发挥GPU的并行处理能力,极大提高编码效率。相似文献

7.

基于GPU的分子动力学模拟并行化及实现

费辉张云泉王可许亚武《计算机科学》2011,38(9):276-278

分子动力学模拟作为获得液体、固体性质的重要计算手段,广泛应用于化学、物理、生物、医药、材料等众多领域。模拟体系的复杂性和精确性的需求,使得计算量巨大,耗费时间长。并行计算是加速大规模分子动力学模拟的霍要途径。GPU以几百GFlops甚至上I}Flops的运算能力,为分子动力学模拟等的计算密集型应用提供了新的加速方案。提出了一种基于GPU的分子动力学模拟并行算法—oApT-AD,并在OpenCL和CUDA框架下加以实现。,r}能测试显示,在Tesla C1060显卡上,该算法在OpcnCL框架下的实现相对于CPU的串行实现,最高达到120倍加遥比。通过对比发现,该算法在CUDA上的性能与()pcnCI、基本相当。同时,该算法还可以扩展到两块及以上的GPU上,具有良好的可扩展性。相似文献

8.

基于CUDA的SVM算法并行化研究

张巍张功萱王永利张永平朱昭萌《计算机科学》2013,40(4):69-72

SVM算法在统计分类以及回归分析中得到了广泛的应用。而随着物联网的迅速发展,SVM算法在各种应用中往往需要解决大量数据的快速处理问题。在SVM算法并行化研究中,首先对SVM算法进行分析研究,提出了基于CUDA的SVM算法并行化方案;其次,进一步研究海量数据的处理,提出海量数据处理的并行化方案;最后,通过实验分析对比了并行化算法的性能。相似文献

9.

基于GPU的社会化网络关系计算研究

王亚芹孔雪元王滢《计算机光盘软件与应用》2011,(15)

随着网络不断地社会化、普及化,网络社区的规模也越来越大,这给社会化网络关系的计算带来了巨大的计算量。这些计算包括个人关系及计算与生成、全局关系计算与生成以及关系的挖掘等。虽然这些工作的计算量很大,但却适合并行处理。基于此,本文通过详细分析GPU的高性能运算及其在CUDA编程模型上的具体实现,讨论利用基于CUDA硬件架构的GPU来进行社区用户关系的并行计算。相似文献

10.

基于嵌入式GPU的pyramid LK光流法高速计算方法研究

孙瑞鑫朱国梁谢双镱郭雪亮柴志雷《计算机应用研究》2022,39(7)

在嵌入式计算平台上实现双向约束LK金字塔高精度光流的实时计算,是该算法能否用于自动驾驶等场景的重要影响因素。为了实现该目的,提出了基于网格划分的特征提取方法及新的双向约束方法;然后设计了动态窗口的金字塔模型,解决了光流计算过程中的负载不均衡问题;最后通过降低计算位宽,使得整体性能获得进一步提升。实验结果表明：在Jetson TX2上,针对真实场景所用的720P视频,所提出方法的性能比OpenCV的GPU版本提升了4.1倍,达到30 fps以上;将采用该方法的SLAM系统成功应用于车载场景并在真实环境中测试,使得系统的性能达到了28 fps。新方法有效地提升了位姿和点云的精度,较好地满足了车载场景的实时处理需求。相似文献

11.

基于CUDA的并行粒子群优化算法的设计与实现 总被引：1，自引：0，他引：1

蔡勇李光耀王琥《计算机应用研究》2013,30(8):2415-2418

针对处理大量数据和求解大规模复杂问题时粒子群优化(PSO)算法计算时间过长的问题, 进行了在显卡(GPU)上实现细粒度并行粒子群算法的研究。通过对传统PSO算法的分析, 结合目前被广泛使用的基于GPU的并行计算技术, 设计实现了一种并行PSO方法。本方法的执行基于统一计算架构（CUDA）, 使用大量的GPU线程并行处理各个粒子的搜索过程来加速整个粒子群的收敛速度。程序充分使用CUDA自带的各种数学计算库, 从而保证了程序的稳定性和易写性。通过对多个基准优化测试函数的求解证明, 相对于基于CPU的串行计算方法, 在求解收敛性一致的前提下, 基于CUDA架构的并行PSO求解方法可以取得高达90倍的计算加速比。相似文献

12.

Multitasking the conjugate gradient method on the CRAY X-MP/48 总被引：1，自引：0，他引：1

Grard Meurant 《Parallel Computing》1987,5(3):267-280

We show how to efficiently implement the preconditioned conjugate gradient method on a four processors computer CRAY X-MP/48. We solve block tridiagonal systems using block preconditioners well suited to parallel computation. Numerical results are presented that exhibit nearly optimal speedup and high Mflops rates. 相似文献

13.

基于GPU的稀疏线性系统的预条件共轭梯度法

张健飞沈德飞《计算机应用》2013,33(3):825-829

研究了基于GPU的稀疏线性方程组的预条件共轭梯度法加速求解问题,并基于统一计算设备架构(CUDA)平台编制了程序,在NVIDIAGT430 GPU平台上进行了程序性能测试和分析。稀疏矩阵采用压缩稀疏行(CSR)格式压缩存储,针对预条件共轭梯度法的算法特性,研究了基于GPU的稀疏矩阵与向量相乘的性能优化、数据从CPU端传到GPU端的加速传输措施。将编制的稀疏矩阵与向量相乘的kernel函数和CUSPARSE函数库中的cusparseDcsrmv函数性能进行了对比,最优得到了2.1倍的加速效果。对于整个预条件共轭梯度法,通过自编kernel函数来实现的算法较之采用CUBLAS库和CUSPARSE库实现的算法稍具优势,与CPU端的预条件共轭梯度法相比,最优可以得到7.4倍的加速效果。相似文献

14.

Research on the conjugate gradient algorithm with a modified incomplete Cholesky preconditioner on GPU

Jiaquan Gao Ronghua Liang Jun Wang 《Journal of Parallel and Distributed Computing》2014

In this study, we discover the parallelism of the forward/backward substitutions (FBS) for two cases and thus propose an efficient preconditioned conjugate gradient algorithm with the modified incomplete Cholesky preconditioner on the GPU (GPUMICPCGA). For our proposed GPUMICPCGA, the following are distinct characteristics: (1) the vector operations are optimized by grouping several vector operations into single kernels, (2) a new kernel of inner product and a new kernel of the sparse matrix–vector multiplication with high optimization are presented, and (3) an efficient parallel implementation of FBS on the GPU (GPUFBS) for two cases are suggested. Numerical results show that our proposed kernels outperform the corresponding ones presented in CUBLAS or CUSPARSE, and GPUFBS is almost 3 times faster than the implementation of FBS using the CUSPARSE library. Furthermore, GPUMICPCGA has better behavior than its counterpart implemented by the CUBLAS and CUSPARSE libraries. 相似文献

15.

Conjugate gradient method with preconditioning by projector

《国际计算机数学杂志》2012,89(3-4):315-323

Preconditioning of the conjugate gradient method by a conjugate projector has been suggested. We describe an algorithm and prove its correctness. An estimate of the preconditioning effect in terms of the gap between the invariant subspace of smooth eigenvectors of a matrix of original system and the complement of the range of the preconditioning projector is obtained. The paper is supplied with results of a numerical experiment which suggest that the method may be efficient in practical computations. 相似文献

16.

基于GPU和均匀栅格法的光线追踪算法研究

童星袁道华《计算机工程与设计》2011,32(10):3499-3502

由于GPU(图形处理器)性能的大幅提高和可编程性的发展,基于GPU的光线追踪算法逐渐成为研究热点。光线追踪算法需要的计算量大,基于此,分析了光线追踪算法的基本原理,在NVIDIA公司的CUDA(计算统一设备体系结构)环境下采用均匀栅格法作为加速结构实现了光线追踪算法。实验结果表明,该计算模式相对于传统基于CPU的光线追踪算法具有更快的整体运算速度,GPU适合处理高密度数据计算。相似文献

17.

基于QR分解的对称共轭梯度法成像算法

马世文王化祥《传感技术学报》2011,24(8):1168-1171

为了快速得到高质量的重建图像,提出了对称共轭梯度法成像算法,大大缩减了迭代次数,同时,将ERT物理模型进行规范化和Tikhonov正则化处理,进而将QR分解的思想引入ERT方程的求解中,提出基于QR分解的对称共轭梯度算法,实现了单步图像重建.理论分析表明,该算法具有良好的收敛性.通过典型流型的仿真实验,证明了该算法可以... 相似文献

18.

A new spectral conjugate gradient method for large-scale unconstrained optimization

Jinbao Jian Qian Chen Xianzhen Jiang Youfang Zeng Jianghua Yin 《Optimization methods & software》2017,32(3):503-515

The spectral conjugate gradient methods, with simple construction and nice numerical performance, are a kind of effective methods for solving large-scale unconstrained optimization problems. In this paper, based on quasi-Newton direction and quasi-Newton condition, and motivated by the idea of spectral conjugate gradient method as well as Dai-Kou's selecting technique for conjugate parameter [SIAM J. Optim. 23 (2013), pp. 296–320], a new approach for generating spectral parameters is presented, where a new double-truncating technique, which can ensure both the sufficient descent property of the search directions and the bounded property of the sequence of spectral parameters, is introduced. Then a new associated spectral conjugate gradient method for large-scale unconstrained optimization is proposed. Under either the strong Wolfe line search or the generalized Wolfe line search, the proposed method is always globally convergent. Finally, a large number of comparison numerical experiments on large-scale instances from one thousand to two million variables are reported. The numerical results show that the proposed method is more promising. 相似文献

19.

共轭梯度求解器的FPGA设计与实现

宋庆增顾军华《计算机应用》2011,31(9):2571-2573

针对共轭梯度(CG)迭代算法软件执行效率低、实时性差的缺点,提出一种基于现场可编程逻辑门阵列(FPGA)平台的CG迭代求解器。设计采用软硬件结合的方式构建整个系统,CG协处理器执行CG迭代算法中计算量大、控制简单的代码,以达到硬件加速的目的。控制复杂、计算量较少的代码则依旧在微处理上执行。设计采用行交错数据流,使得整个系统完全无停顿的运行,提高了计算性能。实验结果表明,与软件执行相比,硬件CG协处理器可以获得最高5.7倍的性能加速。相似文献

20.

二维泊松问题的并行共轭梯度算法

ZHAO Hang-tao 《数字社区&智能家居》2008,(27)

该论文研究了利用并行共轭梯度算法求解二维泊松方程的方法,在由24台微机组成的机群上进行了实验。实验数据表明并行共轭梯度算法适用于求解二维泊松方程,它具有收敛快,可扩展性强的特点。在实验的基础上提出并验证了适用于并行共轭梯度算法的合理计算节点数的选择函数。相似文献