期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

唐天泽孙玲黄新明谢星韩赛飞《计算机应用研究》2018,35(10)

大数乘法是公钥加密中最为核心的计算环节之一,快速实现大数乘法单元也是RSA、ElGamal、全同态等密码体制急需解决的问题之一。目前,基于C 的NTL GMP库函数虽然能在CPU上实现高精度的大数乘法,但其仍不能满足加密对实时性的要求。针对全同态加密应用需求,本文提出了一种基于Sch?nhage-Strassen算法的大数乘法GPU加速方法。通过比较相同实验平台下仅用CPU和GPU CPU异构方法实现的大数乘法运算,验证了本文设计方法的正确性和有效性。实验结果表明,采用本文方法实现的相同大数乘法运算所需的时间比在多核CPU平台实现所需的时间有12倍以上的加速。相似文献

2.

异构平台下格子Boltzmann方法实现及性能分析

张丹丹徐莹徐磊《计算机科学》2012,39(4):296-298,303

对CPU+GPU异构平台下的多种并行编程模式进行了研究,并针对格子Boltzmann方法实现了CUDA,MPI+CUDA,MPI+OpenMP+CUDA多级并行算法。结果表明,算法具有较好的加速性能;提出的根据计算量比例参数调节CPU和GPU之间负载均衡的方法,对于在异构平台上实现多级并行处理及资源的有效利用具有一定的参考和应用价值。相似文献

3.

大规模集群上多维FFT算法的实现与优化研究

《计算机科学与探索》2017,(6):863-874

快速傅里叶变换(fast Fourier transform,FFT)是用于计算离散傅里叶变换(discrete Fourier transform,DFT)或其逆运算的快速算法,在工程、科学和数学领域的应用非常广泛,例如信号分解、数字滤波、图像处理等。因此,在实际应用中对FFT算法进行细粒度优化是非常重要的。研究了FFT算法常用的分解策略以及FFT算法在大规模集群系统上的并行实现,并提出了相关的优化策略。在此基础上,对多种FFT算法在不同平台上进行了性能评估,并分析了各算法的实现、优缺点及其在大规模计算时的可扩展性。实验结果表明,相关研究有助于对现有的FFT算法进行进一步的优化,以及指导如何在大规模CPU+GPU的异构系统上根据不同需求选择实现性能更优的FFT算法。相似文献

4.

基于GPU平台的二维离散余弦算法

刘峰施展《计算机工程与科学》2009,31(Z1)

本文介绍了GPU并行计算的优越性,并对基于GPU平台的开发框架和编程环境CUDA给予概述;在CUDA环境中开发DCT算法代码,实现了DCT算法代码从CPU平台向GPU平台的移植;并通过对比两个计算平台上DCT算法的计算耗时,分析了GPU计算平台的优越性。相似文献

5.

GIST特征提取的异构并发流计算实现 总被引：1，自引：0，他引：1

仲济源梅魁志温哲西《计算机工程与应用》2015,(6):139-144,187

针对图像GIST全局特征提取算法的计算任务,实现了CPU+GPU异构协同计算与优化：使用CPU完成图像量化、线性延拓等小计算量、不规则的数据运算,使用GPU完成滤波、Gabor特征提取、降维等计算密集、高度并行的数据运算。面向图像序列的计算扩展,在CPU端引入线程池技术,通过每个线程都绑定一个CUDA流处理一幅图像的方法,实现了多幅图像并发流处理和流内数据传输延时的隐藏;利用线程池技术提供线程预创建、资源预分配及根据资源消耗情况的线程数量动态增减等方法,提高了CPU对GPU计算资源的调度使用效率。实验结果表明,在保证同等精度的前提下,基于异构计算平台的图像GIST特征提取方法相比传统CPU平台达到8.35~9.31倍的加速比,在使用线程池之后算法处理图像序列数据时速度进一步提升10.0%~37.2%。相似文献

6.

六边形区域快速傅里叶变换的CUDA-MPI算法及其实现

陈家杰李会元张先轶《数值计算与计算机应用》2012,33(1):59-72

本文研究六边形区域上快速傅里叶变换(FFTH)的CUDA-MPI算法及其实现.首先,我们通过充分利用CUDA的层次化并行机制及其库函数,设计了FFTH的高效率的CUDA算法.对于规模为3×2048~2的双精度复数类型数据,我们设计的CUDA程序与CPU串行程序相比可以达到12倍加速比,如果不计内存和显存之间的数据传输,则加速比可达40倍;其计算效率与CUFFT所提供的二维方形区域FFT程序的效率基本一致.在此基础上,我们通过研究GPU上分布式并行数据的转置与排序算法,优化设计了FFTH的CUDA-MPI算法.在3×8192~2的数据规模、10节点×6GPU的计算环境下,我们的CUDA-MPI程序与CPU串行程序相比达到了55倍的加速;其效率比MPI并行版FFTW以及基于CUFFT本地计算和FFTW并行转置的方形区域并行FFT的效率都要高出很多.FFTH的CUDA-MPI算法研究和测试为大规模CPU+GPU异构计算机系统的可扩展新型算法的探索提供了参考. 相似文献

7.

一种基于Hadoop+CUDA实现相关器的方法

苏丽孙彦猛张博为杨先博朱颖《计算机工程与科学》2016,38(1):46-51

根据21CMA相关器的算法特点,在对比基于CPU并行的MPI集群、MPI+CUDA异构并行集群和Hadoop+CUDA异构并行集群的架构特点的基础上,提出了一种基于Hadoop+CUDA平台实现软相关器的方法。本方法利用GPU在计算FFT、向量乘和向量加等密集型计算模型的优势,设计相关器的并行模型,使其性能较前期在CPU并行的MPI集群实现的相关器有了大幅提升。同时,本文选择广泛应用于大数据处理平台的Hadoop软件架构,利用Hadoop Streaming工具实现非Java编写的程序在分布式系统中并行执行,非常便捷地获得了集群系统的线性加速比。Hadoop HDFS并行文件系统管理结果数据和过程日志更加灵活可靠,为后续的大数据分析提供了支撑环境。相似文献

8.

一种适应GPU的混合OLAP查询处理模型

张宇张延松陈红王珊《软件学报》2016,27(5):1246-1265

通用GPU因其强大的并行计算能力成为新兴的高性能计算平台,并逐渐成为近年来学术界在高性能数据库实现技术领域的研究热点.但当前GPU数据库领域的研究沿袭的是ROLAP(relational OLAP)多维分析模型,研究主要集中在关系操作符在GPU平台上的算法实现和性能优化技术,以哈希连接的GPU并行算法研究为中心.GPU拥有数千个并行计算单元,但其逻辑控制单元较少,相对于CPU具有更强的并行计算能力,但逻辑控制和复杂内存管理能力较弱,因此并不适合需要复杂数据结构和复杂内存管理机制的内存数据库查询处理算法直接移植到GPU平台.提出了面向GPU向量计算特性的混合OLAP多维分析模型semi-MOLAP,将MOLAP(multidimensionalOLAP)模型的直接数组访问和计算特性与ROLAP模型的存储效率结合在一起,实现了一个基于完全数组结构的GPU semi-MOLAP多维分析模型,简化了GPU数据管理,降低了GPU semi-MOLAP算法复杂度,提高了GPU semi-MOLAP算法的代码执行率.同时,基于GPU和CPU计算的特点,将semi-MOLAP操作符拆分为CPU和GPU平台的协同计算,提高了CPU和GPU的利用率以及OLAP的查询整体性能. 相似文献

9.

单节点多GPU集群下HPL动态负载均衡优化

陈任之黄立波陈顼颢王志英《计算机科学》2013,40(3):107-110

现有CPU加速的高性能Linpack基准测试程序(HPL)一般采用基于实际运算能力的动态负载均衡算法来实现。然而该算法在单节点多GPU的平台上表现不佳,其原因是单节点多GPU平台上单个GPU计算量小,并且GPU与CPU的总性能差距较大。为此,提出了经验指导的动态负载均衡算法以及多GPU自适应负载均衡算法,并且在单节点多GPU平台上进行了验证,结果显示,其比现有的基于NVIDIA费米GPU的HPI有6.3%的加速效果。相似文献

10.

一种基于GPU的预计算辐射度传递全频阴影算法

王京王莉莉李帅《计算机研究与发展》2006,43(9):1505-1510

针对基于CPU的实时渲染全频阴影算法中内存使用效率低下、CPU运算能力消耗严重等问题,提出了基于GPU的改进算法．在预计算过程中使用基于小波变换的预计算辐射度传递（PRT）算法生成PRT矩阵,然后将其编码为易于被GPU使用的稀疏形式;在渲染过程中使用具有高度并行性的片断渲染器程序进行稀疏矩阵向量快速乘法计算,以求得最终渲染结果．相对于目前基于CPU的相应算法,算法充分利用了GPU的并行计算能力,平衡了CPU与GPU之间的负载,并同时降低了内存消耗．在一般情况下,算法可以获得超过一个数量级的性能提升．相似文献

11.

多自由度结构静风响应的GPU并行计算

杨智诚饶瑞《计算机辅助工程》2015,24(4):82-86

根据某大型双层柱面网壳风致静力响应计算的有限元模型,建立基于GPU的MATLAB快速并行计算平台,实现CUDA框架下多自由度结构风致静力位移响应的快速求解.数值计算表明,与传统的CPU串行计算相比,通过GPU实现的大型矩阵的求逆、乘法、除法等运算速度得到大幅提高,位移计算获得23倍的最大加速比;结果误差对比分析也表明基于GPU的计算结果能够满足工程精度要求. 相似文献

12.

基于OpenCL的图像重映射算法优化研究

吴再龙张云泉龙国平徐建良贾海鹏《数据与计算发展前沿》2013,4(1):57-66

图像重映射(Remap)算法是典型的图像变化算法。在图像放缩、扭曲、旋转等领域有着广泛的应用。随着图片规模和分辨率的不断提高,对图形映射算法的性能提出了越来越高的要求。本文在充分考虑不同GPU平台硬件体系结构差异的基础上,系统研究了在OpenCL框架下图像映射(Remap)算法在不同GPU平台上的高效实现方式。并从片外内存访存优化,向量化计算,减少动态指令等多个优化角度考察了不同优化方法在不同GPU平台上对性能的影响,提出了在不同GPU平台间实现性能移植的可能性。实验结果表明,优化后的算法在不考虑数据传输时间的前提下,在AMD HD5850GPU上相对于CPU版本取得114.3～491.5倍的加速比,相对于CUDA版本(现有GPU算法的实现)得到1.01～1.86的加速比,在NIVIDIA C2050 GPU上相对CPU版本取得100.7～369.8倍的加速比,相对于CUDA版本得到0.95～1.58的加速比。有效验证了本文提出的优化方法的有效性和性能可移植性。相似文献

13.

流式缩减技术在GPU上的研究与应用

曲洋黄永忠王磊《计算机工程与设计》2008,29(5):1268-1271

随着GPU通用计算技术应用的不断深入,如何把某些并行计算任务从传统的CPU平台向GPU平台转移,把串行编程模型向并行的流式编程模型转变等,已经成为了研究的热点.讨论了基于GPU的流式编程模型,探讨了基于流式编程模型的GPU与CPU编程之间的差别与联系,最后描述了一种在GPU上的流式缩减操作算法的设计与实现.为把图形处理器应用在通用计算领域提供参考和帮助. 相似文献

14.

基于KLT和HEVC的嵌入式高光谱图像实时压缩

李卓徐哲陈昕李淑琴《计算机应用》2018,38(8):2393-2397

现有追求高压缩质量的高光谱图像压缩算法普遍存在计算复杂度高、离线式处理、嵌入式平台实现难度大等问题,目前很难得到实际应用。为解决以上问题,设计一种基于KLT和HEVC的嵌入式高光谱图像实时压缩方法。首先基于KLT去除谱间相关性,然后基于HEVC去除空间相关性并完成量化编码的过程。基于NVIDIA Jetson TX1平台,设计并实现了CPU和GPU异构并行压缩处理系统。利用真实数据集对所设计算法和所实现平台进行了性能及可行性验证。实验结果表明:在相同压缩比下,与离散小波变换（DWT）+JPEG2000算法相比,该系统明显提升了重建精度,在峰值信噪比（PSNR）方面平均提高了1.36 dB;同时,相比CPU,在GPU中进行KLT计算也至多可缩短33%的运行时间。相似文献

15.

CPU与GPU上几种矩阵乘法的比较与分析 总被引：1，自引：0，他引：1

下载免费PDF全文

刘进锋郭雷《计算机工程与应用》2011,47(19):9-11

描述了矩阵乘法在CPU上的三种实现方法和在GPU上基于CUDA架构的四种实现方法,分析了高性能方法的原由,发现它们的共同特点都是合理地组织数据并加以利用,这样能有效地减少存取开销,极大地提高算法的速度。其中CPU上的最优实现方法比普通算法快了200多倍,GPU上的最优实现方法又比CPU上的最优实现方法快了约6倍。相似文献

16.

CPU/GPU 集群上求解偏微分方程的可扩展混合算法

罗力杨超赵宇波蔡小川《集成技术》2012,1(1):84-88

当前世界上排前几位的超级计算机都基于大量CPU和GPU组合的混合架构,它们对某些特殊问题,譬如基于FFT的图像处理或N体颗粒计算等领域可获得很高的性能。但是对由有限差分(或基于网格的有限元)离散的偏微分方程问题,于CPU/GPU集群上获得较好的性能仍然是一种挑战。本文提出并测试一种基于这类集群架构的混合算法。算法的可扩展性通过区域分解算法实现,而GPU的性能由基于光滑聚集的代数多重网格法获得,避免了在GPU上表现不理想的不完全分解算法。本文的数值实验采用32CPU/GPU求解用差分离散后达三千万未知数的偏微分方程。相似文献

17.

基于OpenCL的直方图生成算法优化方法研究

安小景张云泉贾海鹏《计算机科学》2015,42(11):32-36

随着GPU计算能力及可编程性的不断增强,采用GPU作为通用加速器对应用程序进行性能加速已经成为提升程序性能的主要模式。直方图生成算法是计算机视觉的常用算法,在图像处理、模式识别、图像搜索等领域都有着广泛的应用。随着图像处理规模的扩大和实时性要求的提高,通过GPU提升直方图生成算法性能的需求也越来越强。在GPU计算平台关键优化方法和技术的基础上,完成了直方图生成算法在GPU计算平台上的实现及优化。实验结果表明,通过使用直方图备份、访存优化、数据本地化及规约优化等优化方法,直方图生成算法在AMD HD7850 GPU计算平台上的性能相对于优化前的版本达到了1.8~13.3倍的提升;相对于CPU版本,在不同数据规模下也达到了7.2~210.8倍的性能提升。相似文献

18.

基于GPU的LARED-P算法加速

下载免费PDF全文

刘来国徐炜遐杨灿群陈娟《计算机工程与科学》2009,31(Z1)

GPU拥有几百GFlops甚至上TFlops的浮点计算能力,将GPU应用于粒子模拟,可有效提高大规模粒子模拟的速度,降低计算成本。本文利用GPU加速三维激光等离子体模拟算法LARED-P,提出了基于CPU+GPU的任务划分、GPU上任务分解、大规模计算核心的分解方法,结合使用了寄存器、纹理内存对算法进行加速。在双精度条件下,移植后的算法在工作频率为1.44GHz的NVIDIA Tesla S1070的单个GPU上获得了相当于主频2.4GHz的Intel(R)Core(TM)2 Quad CPU Q6600单核的6倍加速比。相似文献

19.

基于CUDA的快速大整数乘法

下载免费PDF全文

许亮王震《计算机工程与应用》2013,49(16):221-224

针对快速傅里叶变换下的快速大整数乘法,给出了一种基于CUDA架构的GPU并行化加速的实现方法。通过分析整数快速乘法中的每一步骤,分别给出各步骤的并行化实现方法,并采用数据压缩等策略,对算法进行优化。实验表明该方法有效地提高了算法效率,随着数据规模的增长,可获得18倍以上的加速比。相似文献

20.

CPU/GPU 异构环境下图像协同并行处理模型

杨洪余李成明王小平姜青山《集成技术》2017,6(5):8-18

随着GPU通用计算能力的不断发展,一些新的更高效的处理技术应用到图像处理领域.目前已有一些图像处理算法移植到GPU中且取得了不错的加速效果,但这些算法没有充分利用CPU/GPU组成的异构系统中各处理单元的计算能力.文章在研究GPU编程模型和并行算法设计的基础上,提出了CPU/GPU异构环境下图像协同并行处理模型.该模型充分考虑异构系统中各处理单元的计算能力,通过图像中值滤波算法,验证了CPU/GPU环境下协同并行处理模型在高分辨率灰度图像处理中的有效性.实验结果表明,该模型在CPU/GPU异构环境下通用性较好,容易扩展到其他图像处理算法. 相似文献