期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

秦晋龚春叶胡庆丰刘杰《计算机工程与科学》2012,34(7):78-83

稀疏矩阵向量乘是很多科学计算问题中的核心问题。本文针对稀疏对角矩阵,在DIA存储格式的基础上,设计了一种新型压缩存储格式CDIA,结合CUDA编程模型的特点,在计算线程上进行了细粒度的任务分配,同时为满足CUDA对存储器的合并访问要求,将压缩矩阵做了相应的转置处理,设计了细粒度算法与程序,并根据稀疏矩阵向量乘特点,做了相应的程序优化。实验数据显示,这种存储格式能够很好地发挥CUDA在数据处理方面的优势,在测试数据中,最高获得了单精度39.6Gflop/s和双精度19.6Gflop/s的浮点计算性能,性能在Nathan Bell和Michael Garland的基础上分别提高了7.6%和17.4%。相似文献

2.

GPU上稀疏矩阵与矢量乘积运算的一种改进

下载免费PDF全文

马超韦刚裴颂文吴百锋《计算机系统应用》2010,19(5):116-120

稀疏矩阵和矢量的乘积运算在工程实践及科学计算中经常用到,随着矩阵规模的增长,大量的计算限制了整个系统的性能,因此可以利用GPU的高运算能力加速SpMV。分析了现有GPU上实现的SpMV存在的问题,并设计了行分割优化和float4数据类型优化两种方案。实验表明,该方案可以使性能提升2—8倍。相似文献

3.

矩阵相乘的并行计算及其DSP实现

雷晶金心宇王锐《传感技术学报》2006,19(3):737-740

矩阵相乘的速度在阵列信号处理中具有重要意义,并行处理是提高系统运算能力最有效的方法.本文根据矩阵相乘的特点,提出了矩阵相乘的并行算法.同时经分析推导出了矩阵相乘的脉动矩阵方法,得出其在超立方及其平面阵列上的映射,提高了矩阵的运算速度.最后,给出了用DSP实现脉动矩阵的系统方案. 相似文献

4.

一般稀疏矩阵相乘的混合并行算法

罗海飙王婷张云泉《计算机科学与探索》2013,7(8)

稀疏矩阵相乘广泛应用于科学和工程计算中,是科学计算中的一种常用的基本运算,其面临着数据量大,非零值分布不规则,负载难均衡,计算结果矩阵的列指数无规则分布等问题.通过矩阵分块,优化数据传输,负载均衡,改良并行快速排序方法来解决上述问题,提高了计算效率.在多线程下计算速度比商业软件Intel MKL(Intel math kernel library)平均提高56％.同时,还通过MPI+OpenMP进行混合并行优化,在共享存储系统上两者有类似的计算速度. 相似文献

5.

基于HYB格式稀疏矩阵与向量乘在CPU+GPU异构系统中的实现与优化

阳王东李肯立《计算机工程与科学》2016,38(2):202-209

稀疏矩阵与向量相乘SpMV是求解稀疏线性系统中的一个重要问题,但是由于非零元素的稀疏性,计算密度较低,造成计算效率不高。针对稀疏矩阵存在的一些不规则性,利用混合存储格式来进行SpMV计算,能够提高对稀疏矩阵的压缩效率,并扩大其适应范围。HYB是一种广泛使用的混合压缩格式,其性能较为稳定。而随着GPU并行计算得到普遍应用以及CPU日趋多核化,因此利用GPU和多核CPU构建异构并行计算系统得到了普遍的认可。针对稀疏矩阵的HYB存储格式中的ELL和COO存储特征,把两部分数据分别分割到CPU和GPU进行协同并行计算,既能充分利用CPU和GPU的计算资源,又能够发挥CPU和GPU的计算特性,从而提高了计算资源的利用效能。在分析CPU+GPU异构计算模式的特征的基础上,对混合格式的数据分割和共享方面进行优化,能够较好地发挥在异构计算环境的优势,提高计算性能。相似文献

6.

带状稀疏矩阵乘法及高效GPU实现

刘丽陈长波《计算机应用》2023,43(12):3856-3867

稀疏-稠密矩阵乘法(SpMM)广泛应用于科学计算和深度学习等领域,提高它的效率具有重要意义.针对具有带状特征的一类稀疏矩阵,提出一种新的存储格式BRCV(Banded Row Column Value)以及基于此格式的SpMM算法和高效图形处理单元(GPU)实现.由于每个稀疏带可以包含多个稀疏块,所提格式可看成块稀疏矩阵格式的推广.相较于常用的CSR(Compressed Sparse Row)格式,BRCV格式通过避免稀疏带中列下标的冗余存储显著降低存储复杂度;同时,基于BRCV格式的SpMM的GPU实现通过同时复用稀疏和稠密矩阵的行更高效地利用GPU的共享内存,提升SpMM算法的计算效率.在两种不同GPU平台上针对随机生成的带状稀疏矩阵的实验结果显示,BRCV的性能不仅优于cuBLAS(CUDA Basic Linear Algebra Subroutines),也优于基于CSR和块稀疏两种不同格式的cuSPARSE.其中,相较于基于CSR格式的cuSPARSE,BRCV的最高加速比分别为6.20和4.77.此外,将新的实现应用于图神经网络(GNN)中的SpMM算子的加速.在实际应用数据集上的测试结果表明,BRCV的性能优于cuBLAS和基于CSR格式的cuSPARSE,且在大多数情况下优于基于块稀疏格式的cuSPARSE.其中,相较于基于CSR格式的cuSPARSE,BRCV的最高加速比为4.47.以上结果表明BRCV可以有效提升SpMM的效率. 相似文献

7.

GPU 上的矩阵乘法的设计与实现 总被引：1，自引：0，他引：1

下载免费PDF全文

梁娟娟任开新郭利财刘燕君《计算机系统应用》2011,20(1):178-181,149

矩阵乘法是科学计算中最基本的操作,高效实现矩阵乘法可以加速许多应用。本文使用NVIDIA的CUDA在GPU上实现了一个高效的矩阵乘法。测试结果表明,在Geforce GTX260上,本文提出的矩阵乘法的速度是理论峰值的97％,跟CUBLAS库中的矩阵乘法相当。相似文献

8.

矩阵相乘Cannon并行算法在工作站机群上的实现 总被引：6，自引：1，他引：6

李小洲李庆华《计算机工程》2002,28(6):102-103,107

矩阵相乘Cannon并行算法是一个基于分布式存储多处理机模型的并行数据算法,文章研究了它在工作站机群上的实现。在满足负载平衡和减少网络间数据传输的条件下,主要探讨了子任务在工作站上的优化分配策略,最后给出了在PVM并行编程环境下的具体实现方法。相似文献

9.

一种基于PVM的矩阵相乘并行算法

下载免费PDF全文

韦安定李代平文剑《计算机工程》2007,33(24):72-73

研究了一种运行于PVM并行计算平台的矩阵相乘的并行算法。在工作站数量不为某个数的平方数时,Cannon算法在PVM环境下不能充分地利用机群系统中的资源。根据PVM并行编程环境中任务间通信的特点,文中设计了一种基于PVM的矩阵相乘并行算法,该算法根据工作站数量来确定子任务的数量,并对矩阵A进行分块,每个子任务可以计算一个分块。实验表明,该算法提高了机群并行环境中资源的利用率,提高了程序的运行效率。相似文献

10.

矩阵相乘Cannon并行算法在工作站机群上的实现 总被引：2，自引：0，他引：2

李小洲李庆华《计算机与数字工程》2001,29(5):5-8

矩阵相乘Cannon并行算法是一个基于分布式存储多处理机模型的并行数值算法,本文研究了它在工作站机群上的实现。在满足负载平衡和减少网络间数据传输的条件下,主要探讨了子任务在工作站上的优化分析策略,最后给出了在pvm并行编程环境下的具体实现方法。相似文献

11.

《Concurrency and Computation》2018,30(19)

Given that the dense matrix‐vector multiplication (Ax or A^Tx) is of great importance in scientific computations, how to accelerate it is investigated on the graphics processing unit (GPU) in this paper. We present a warp‐based implementation of Ax on the GPU, called GEMV‐Adaptive, and a thread‐based implementation of A^Tx on the GPU, called GEMV‐T‐Adaptive. For our proposed GEMV‐Adaptive and GEMV‐T‐Adaptive, there are the following novelties: (1) an adaptive warp allocation strategy for GEMV‐Adaptive is proposed to assign the optimal warp number for each matrix row, (2) an adaptive thread allocation strategy for GEMV‐T‐Adaptive is designed to assign the optimal thread number to each matrix row, and (3) several optimization schemes are formulated. Experimental results show that the proposed GEMV‐Adaptive and GEMV‐T‐Adaptive mitigate the performance fluctuations of the implementations in the CUBLAS library, always have high performance, and outperform the most recently proposed GEMV and GEMV‐T kernels by Gao et al, respectively, for all test matrices. 相似文献

12.

CUDA-enabled Sparse Matrix–Vector Multiplication on GPUs using atomic operations

Hoang-Vu Dang Bertil Schmidt 《Parallel Computing》2013

Existing formats for Sparse Matrix–Vector Multiplication (SpMV) on the GPU are outperforming their corresponding implementations on multi-core CPUs. In this paper, we present a new format called Sliced COO (SCOO) and an efficient CUDA implementation to perform SpMV on the GPU using atomic operations. We compare SCOO performance to existing formats of the NVIDIA Cusp library using large sparse matrices. Our results for single-precision floating-point matrices show that SCOO outperforms the COO and CSR format for all tested matrices and the HYB format for all tested unstructured matrices on a single GPU. Furthermore, our dual-GPU implementation achieves an efficiency of 94% on average. Due to the lower performance of existing CUDA-enabled GPUs for atomic operations on double-precision floating-point numbers the SCOO implementation for double-precision does not consistently outperform the other formats for every unstructured matrix. Overall, the average speedup of SCOO for the tested benchmark dataset is 3.33 (1.56) compared to CSR, 5.25 (2.42) compared to COO, 2.39 (1.37) compared to HYB for single (double) precision on a Tesla C2075. Furthermore, comparison to a Sandy-Bridge CPU shows that SCOO on a Fermi GPU outperforms the multi-threaded CSR implementation of the Intel MKL Library on an i7-2700 K by a factor between 5.5 (2.3) and 18 (12.7) for single (double) precision. 相似文献

13.

GPU实现的高速FIR数字滤波算法

陈孝良邓仰东程晓斌李晓东田静《计算机辅助设计与图形学学报》2010,22(9):1435-1442

针对目前基于GPU的FIR算法速度低、扩展性差的缺点,提出一种高速的多通道FIR数字滤波的并行算法,并利用平衡并行运算负载的技术以及降低内存访问密度的方法进行加速.该算法采用矩阵乘法的并行运算技术在GPU上建立并行滤波模型,通过每个线程在单个指令周期内执行2个信号运算,实现了多通道信号的高速滤波.实验结果表明,在GTX260+平台上,采用文中算法的平均加速比达到了203,效率超过40%,并且具有更好的扩展性. 相似文献

14.

基于GPU的实时超分辨率算法实现

章拓王知衍《广东电脑与电讯》2009,(3)

高分辨率显示设备的发展意味着需要高分辨率的图象与之匹配。本文通过GPU,实现了一种实时超分辨率,使分辨率较低的视频资料在高分辨率显示设备上有较好的显示效果。相似文献

15.

二维扩散方程的GPU加速 总被引：1，自引：0，他引：1

董廷星王龙迟学斌《计算机工程与科学》2009,31(11)

近几年来,GPU因拥有比CPU更强大的浮点性能备受瞩目。NVIDIA推出的CUDA架构,使得GPU上的通用计算成为现实。本文将计算流体力学中Benchmark问题的二维扩散方程移植到GPU,并采用了全局存储和纹理存储两种方法。结果显示,当网格达到百万量级的时候,得到了34倍的加速。相似文献

16.

图形硬件加速的织物自碰撞检测算法

纪传舜刘卉《计算机应用与软件》2010,27(9)

自碰撞检测是织物实时模拟的瓶颈.利用最新的图形硬件特性,设计了织物模拟的自碰撞检测算法.该算法以质点包围球为基本计算单元,仅保存计算得到的第一次发生碰撞的信息,而不需要计算出所有的碰撞对.算法在CUDA平台上实现,通过对核函数的一次调用即可完成自碰撞检测,算法复杂度为O(n).将算法用于由大规模质点构成的织物模拟过程中,试验表明,算法的GPU实现比相应的CPU实现性能提高18倍以上,与两遍渲染算法相比,平均性能也提高了20%左右. 相似文献

17.

CUDA高性能计算并行编程 总被引：1，自引：0，他引：1

李波赵华成张敏芳《微型电脑应用》2009,25(9):55-57,64

针对GPU的计算处理能力,提出了用GPU解决高性能计算的问题,其中包括详细描述CUDA编程的方法、优化处理原则等。采用了对比实验,结果表明了CUDA在并行计算上有很强的能力,为GPU的通用计算提供了新的方法和思路。相似文献