期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

唐定车刘任任谭建龙《计算机应用》2009,29(Z1)

BF算法是串匹配算法经典算法之一,但并不适合GPU这种并行体系结构.提出了基于统一计算设备架构(CUDA)架构的解决方案,通过对需要处理的数据增加一定比例的冗余信息,设计了适合CUDA计算数据的独立性特点的并行BF算法.实验结果表明,基于CUDA架构的并行串匹配算法比同等CPU算法获得约10倍的加速比.此外还对该算法性能的影响因子做了分析. 相似文献

2.

一种面向55 nm工艺的可扩展统一架构图形处理器设计与实现

黄亮秦信刚武玲娟熊庭刚《计算机工程与科学》2014,36(12):2418-2423

现代3D图形处理器已从固定渲染管线发展成可编程渲染管线,且其并行度越来越高,研究并设计高性能的3D图形处理器对3D图形处理具有重要意义。着色器是实现3D图形处理器的核心,因此开发性能高、面积小、功耗低又易于扩展的着色器对3D图形处理器的开发具有重要作用。提出的统一架构图形处理器基于单指令多线程和单指令多数据,单指令多线程可以提高图形处理的并行度,从而提高图形处理性能;单指令多数据可以降低设计复杂度,从而实现面积小、功耗低又易于扩展的着色器。实验结果表明,提出的统一架构图形处理器在面积较小、功耗较低的情况下实现了较高的性能,且设计可扩展性较好。相似文献

3.

基于CUDA的细粒度并行计算模型研究

肖汉肖波冯娜杨锦锦《计算机与数字工程》2013,41(5)

作为应用软件模型和计算机硬件之间的桥梁,编程模型在计算机领域的重要性不言而喻.但随着具备细粒度并行计算能力的图形处理器(GPU)进入主流市场,与之相适应的编程模型发展却相对滞后.Nvidia在GeForce 8系列显卡上推出的统一计算设备架构(CUDA)技术,使得通用计算图形处理单元(GPGPU)从图形硬件流水线和高级绘制语言中解放出来,开发人员无须掌握图形学编程方法即可在单任务多数据模式(SIMD)下完成高性能并行计算.论文从特性、组成和并行架构等几个方面对CUDA并行计算模型进行了研究,充分表明基于GPU进行高性能并行计算,是适应目前大规模计算需求的一个重要发展途径. 相似文献

4.

基于GPU的并行优化技术* 总被引：2，自引：2，他引：2

左颢睿张启衡徐勇赵汝进《计算机应用研究》2009,26(11):4115-4118

针对标准并行算法难以在图形处理器(GPU)上高效运行的问题,以累加和算法为例,基于Nvidia公司统一计算设备架构(CUDA)GPU介绍了指令优化、共享缓存冲突避免、解循环优化和线程过载优化四种优化方法。实验结果表明,并行优化能有效提高算法在GPU上的执行效率,优化后累加和算法的运算速度相比标准并行算法提高了约34倍,相比CPU串行实现提高了约70倍。相似文献

5.

基于GPU的图像处理并行算法研究

邓世垠《计算机与现代化》2013,(7):142-145

针对目前图像处理算法日益复杂,对CPU的性能要求越来越高,而传统的基于CPU的图像处理方法无法满足需求的情况,本文对基于统一计算设备架构(CUDA)的图形处理器(GPU)在图形处理方面的算法进行研究和实现。通过充分利用GPU突出的并行处理能力,采用CUDA技术,利用C++语言实现相关算法。研究并设计高斯模糊处理算法、彩色负片处理算法、透明合并处理算法的GPU并行运算流程,并通过与CPU实现相同效果的性能的对比,证明基于GPU图像处理算法的高效性。相似文献

6.

LBM算法在GPU组中的应用

王鹏封卫兵《计算机工程与设计》2011,32(12):4237-4240

为提高大规模并行计算的并行效率,充分发挥CPU与GPU的功能特点,特别是体现GPU强大的运算能力,提出了用消息传递接口(MPI)将一组GPU连接起来。使GPU通用计算与计算流体力学中的LBM(latticeBoltzmannmethod)算法相结合。根据GPU通用计算与LBM算法的原理,使MPI作为计算分配的机制,CUDA(compute unified device architecture)作为主要的计算执行引擎,建立支持CUDA的GPU集群,在集群上对LBM算法中的D2Q9模型进行二维方腔流数值模拟。实验结果表明,利用GPU组模拟与CPU模拟结果一致,更充分发挥了GPU的计算能力,提高了并行效率。相似文献

7.

CPU与GPU上几种矩阵乘法的比较与分析 总被引：1，自引：0，他引：1

下载免费PDF全文

刘进锋郭雷《计算机工程与应用》2011,47(19):9-11

描述了矩阵乘法在CPU上的三种实现方法和在GPU上基于CUDA架构的四种实现方法,分析了高性能方法的原由,发现它们的共同特点都是合理地组织数据并加以利用,这样能有效地减少存取开销,极大地提高算法的速度。其中CPU上的最优实现方法比普通算法快了200多倍,GPU上的最优实现方法又比CPU上的最优实现方法快了约6倍。相似文献

8.

基于SMP集群的MPI+CUDA模型的研究与实现

许彦芹陈庆奎《计算机工程与设计》2010,31(15)

为了研究GPU的通用计算能力和适合SMP集群的编程模型,首次提出MPI+CUDA多粒度混合并行编程的新方法,节点间采用MPI实现粗粒度并行,节点内采用CUDA实现细粒度并行的混合编程方式.利用此方法在搭建的3节点SMP集群环境中,测试了大规模矩阵乘问题的并行计算能力.实验结果表明,该方法能够显著提升并行效率,同时证明MPI+CUDA混合编程模型能够充分发挥SMP集群节点间分布式存储和节点内共享内存的优势,为装有CUDA-enabled GPU的SMP集群提供了一种有效的并行策略. 相似文献

9.

积分图像的快速GPU计算 总被引：1，自引：0，他引：1

王志国王贵锦施陈博苗权林行刚《计算机应用研究》2011,28(10):3913-3916

提出了一种在GPU上计算积分图像的方法。积分图像可通过对输入图像的行实行前缀加法后再对列实行前缀加法构建。前缀加法是指对于一个数组,求取起始位置至每一个下标位置的数组元素的和的操作。提出了分段前缀加法原理,当将其运用到GPU图像积分时有如下优点：减少了线程间的数据依赖;降低了内存访问开销;提高了GPU线程的工作效率。提出的算法相对以前算法在速度上提高了约两倍。该算法可运用到使用积分图像的图像处理算法的GPU加速中。相似文献

10.

基于混合编程模型的支持向量机训练并行化

李涛刘学臣张帅王恺杨愚鲁《计算机研究与发展》2015,52(5):1098-1108

支持向量机(support vector machine, SVM)是一种广泛应用于统计分类以及回归分析的监督学习方法.基于内点法(interior point method, IPM)的SVM训练具有空间占用小、迭代趋近快等优点,但随着训练数据集规模的增大,仍面临处理速度与存储空间所带来的双重挑战.针对此问题,提出利用CPU-GPU异构系统进行大规模SVM训练的混合并行机制.首先利用计算统一设备架构(compute unified device architecture, CUDA)对基于内点法的SVM训练算法的计算密集部分并行化,并改进算法使其适合利用cuBLAS线性代数库加以实现,提高训练速度;然后利用消息传递接口(message passing interface, MPI)在集群系统上实现CUDA加速后算法的分布并行化,利用分布存储有效地增加所处理数据集规模并减少训练时间;进而基于Fermi架构支持的页锁定内存技术,打破了GPU设备存储容量不足对数据集规模的限制.结果表明,利用消息传递接口(MPI)和CUDA混合编程模型以及页锁定内存数据存储策略,能够在CPU-GPU异构系统上实现大规模数据集的高效并行SVM训练,提升其在大数据处理领域的计算性能和应用能力. 相似文献

11.

基于ParaViewWeb架构的GPU高性能运算实现

褚晶辉王亚琦吕卫《计算机工程与应用》2015,51(11):150-153

针对智能手机、平板电脑等移动终端计算能力有限的问题,提出一种基于网络的通用计算服务平台。该平台以服务的方式为移动终端提供远程计算支持,增强其进行复杂运算的能力。利用ParaViewWeb架构的可扩展性,将高性能GPU通用计算与ParaViewWeb架构结合,在保留ParaViewWeb原有的三维数据分析与可视化功能的基础上,扩展其远程调用服务器GPU运算资源的能力。选取医学图像滤波算法为实验对象,验证了该平台的有效性,结果表明对比本地应用,基于网络的应用取得了显著加速。相似文献

12.

基于GPU的稀疏矩阵存储格式优化研究

杨世伟蒋国平宋玉蓉涂潇《计算机工程》2019,45(9)

稀疏矩阵存储格式中的稀疏矩阵向量乘(SpMV)计算效率低下,且分块行列(BRC)存储格式的计算结果缺少再现性和确定性。为此,提出一种改进的BRCP存储格式。采用不同的二维分块策略,根据矩阵各行非零元素分布的统计特性自适应调节分块参数,提高SpMV在GPU平台上的并行性,并设计基于快速分段求和算法的GPU内核函数,保证计算结果的确定性及其在不同GPU平台上的再现性。实验结果表明,BRCP存储格式具有较高的计算效率,相比BRC存储格式可减少并行环境中的SpMV计算误差,并提高PageRank排序的准确率。相似文献

13.

基于MPI+CUDA异步模型的并行矩阵乘法

刘青昆马名威阎慰椿《计算机应用》2011,31(12):3327-3330

矩阵乘法在科学计算领域中起着重要的作用,不同结构模型能够改善并行矩阵乘的性能。现有的MPI+CUDA同步模型中,主机端需要进入等待状态,直到设备端完成任务后才能继续工作,这显然浪费时间。针对上述问题,提出一种基于MPI+CUDA异步模型的并行矩阵乘法。该模型避免了主机端进入等待状态,并采用CUDA流技术解决数据量超过GPU内存问题。通过分析异步模型的加速比和效率,实验结果表明,此方法显著提高了并行效率和大型矩阵乘法的运算速度,充分发挥了节点间分布式存储和节点内共享内存的优势,是一种有效可行的并行策略。相似文献

14.

基于GPU的RAR口令字恢复系统研究

沈晓华周永华杨凡刘忆宁《信息网络安全》2011,(11):59-61

文章阐述了基于GPU高性能计算机上的CUDA平台,开发了针对RAR的口令字分析恢复系统,实现了对部分软件系统口令字的快速分析,从而起到固定犯罪证据的目的。相似文献

15.

基于分布式数据集的并行计算框架内存优化方法

夏立斌刘晓宇姜晓巍孙功星《计算机工程》2023,(4):43-51

随着科学计算和人工智能技术的快速发展,分布式环境下的并行计算已成为解决大规模理论计算和数据处理问题的重要手段。内存容量的提高以及迭代算法的广泛应用,使得以Spark为代表的内存计算技术愈发成熟。但是,当前主流的分布式内存模型和计算框架难以兼顾易用性和计算性能,并且在数据格式定义、内存分配、内存使用效率等方面存在不足。提出一种基于分布式数据集的并行计算方法,分别从模型理论和系统开销两个角度对内存计算进行优化。在理论上,通过对计算过程进行建模分析,以解决Spark在科学计算环境下表达能力不足的问题,同时给出计算框架的开销模型,为后续性能优化提供支持。在系统上,提出一种框架级的内存优化方法,该方法主要包括对跨语言分布式内存数据集的重构、分布式共享内存的管理、消息传递过程的优化等模块。实验结果表明,基于该优化方法实现的并行计算框架可以显著提升数据集的内存分配效率,减少序列化/反序列化开销,缓解内存占用压力,应用测试的执行时间相比Spark减少了69%～92%。相似文献

16.

基于CUDA的加速MATLAB计算研究* 总被引：4，自引：1，他引：3

刘绍波刘明贵张国华《计算机应用研究》2010,27(6):2140-2143

介绍了NVIDIA公司新的编程框架CUDA的特点以及CUDA加速MATLAB的方法,测试了CUDA加速岩土工程中常用的算法如矩阵计算、快速傅里叶变换、支持向量机。随后分析了数据规模、算法复杂性与加速效果的关系,指出了基于CUDA的MATLAB加速计算的应用前景。测试结果表明,CUDA方式相对传统计算方式的最好加速效果分别达到了22.39倍、46.88倍、51.32倍,证明了CUDA加速计算的有效性。相似文献

17.

基于GPU的LLE算法加速及性能优化

李繁严星张晓宇《计算机工程与设计》2021,42(5):1314-1322

为提高非线性数据降维算法效能,分析这类算法的特点,综合考虑KNN计算和解决Sparse特征值两个问题,提出将LLE算法中的KNN搜索算法及大型稀疏矩阵解特征值这两个部分并行在GPU的运算平台上,通过这种方法来加快所有基于LLE发展而来的数据降维技术的执行时间.仿真计算结果表明,在KNN方面整体加速可达40至50倍,在解... 相似文献

18.

基于GPU的AES快速实现

叶剑李立新《计算机工程与设计》2010,31(2)

为了充分利用图形处理器(GPU)的闲置资源,同时达到提高密码算法加密速度的目的,提出了一种在图形处理器上实现AES加密算法的方法,分别阐述了基于传统OpenGL的AES实现以及基于最新技术CUDA的AES实现,并对这两种方法的实现性能进行了分析,同时与传统CPU方法的实现性能进行了比较,基于CUDA的AES的实现速度达到了传统CPU上AES实现速度的19.6倍. 相似文献

19.

基于GPU的现代并行优化算法

张庆科杨波王琳朱福祥《计算机科学》2012,39(4):304-311

针对现代优化算法在处理相对复杂问题中所面临的求解时间复杂度较高的问题,引入基于GPU的并行处理解决方法。首先从宏观角度阐释了基于计算统一设备架构CUDA的并行编程模型,然后在GPU环境下给出了基于CUDA架构的5种典型现代优化算法(模拟退火算法、禁忌搜索算法、遗传算法、粒子群算法以及人工神经网络)的并行实现过程。通过对比分析在不同环境下测试的实验案例统计结果,指出基于GPU的单指令多线程并行优化策略的优势及其未来发展趋势。相似文献

20.

基于GPU的重启PGMRES并行算法研究

陈华史悦戎《计算机工程与应用》2014,50(7):35-40

重启的PGMRES算法是求解稀疏线性方程组高效的迭代方法之一,计算过程也比较稳定。为加快大规模稀疏线性方程组的求解速度,对重启PGMRES算法使用GPU并行方式进行并行算法实现。提出了ELL压缩存储格式的新存取方式,并依据问题规模和SM数目提出了动态分配线程策略。实验结果表明,该算法可有效提高SM资源利用率,获得3~10倍的加速比。相似文献