共查询到18条相似文献,搜索用时 46 毫秒
1.
矩阵乘运算在多个应用领域特别是数值计算领域被广泛使用,但双精度浮点矩阵乘在CPU,GPGPU,FPGA等现有计算平台上的性能和效率受限,其往往成为大规模数值计算应用的性能瓶颈.针对该问题,以线性阵列计算结构为基础,研究了双精度浮点矩阵乘的定制加速.首先,对线性阵列计算结构进行了双缓冲优化并设计了针对双缓冲的存储访问调度,以提高结构的计算效率.其次,提出了矩阵乘协处理器和加速计算系统的结构,构建了协处理器的性能模型并对其结构设计空间进行了探索.最后,验证了协处理器的功能正确性并在某主流工艺下评估了其硬件开销.实验结果表明,设计的双精度浮点矩阵乘协处理器可以达到3 TFLOPS的计算性能和99%的计算效率.与NVIDIA K40 GPGPU相比,协处理器执行双精度浮点矩阵乘的性能是K40的1.95倍,而面积开销仅为K40的21.05%.探索了定制加速结构设计在高性能计算中的应用,对现有计算系统的性能提升具有一定的参考价值. 相似文献
2.
针对传统的通用处理器(GPP)平台上执行稀疏矩阵向量乘计算效率低的问题,提出一种基于可重构计算平台的SpMXV协处理器设计。方案采用二叉树结构高度流水的数据流、IEEE-754的32 bit浮点数数据格式和对角存储格式。数据通路以流水线方式进行组织,能够优化计算性能。仿真结果表明,与GPP平台上的软件实现相比,通过硬件实现的设计能达到最高2.69倍的性能加速。 相似文献
3.
针对SM2国密算法在有限域上大数运算结构复杂、运算开销大的问题,通过研究SM2国密算法在二元扩域下的椭圆曲线点乘运算及其相关基础运算,设计了一种基于RISC-V指令集的椭圆曲线点乘运算加速协处理器。协处理器采用三级流水线结构,提高了计算效率。处理器内部集成9条自定义指令,可协助支持RISC-V的主处理器快速完成SM2国密算法。Vivado仿真结果表明,本设计各流水级功能正常,将协处理器烧录至Xilinx XC7A100T FPGA上,在200 MHz频率下运行结果正确,达到预期目标。 相似文献
4.
提出了一种集成模乘求逆双重运算的抗攻击RSA协处理器设计.在设计中引入了指数重编码和双位扫描的方法以提高模幂运算的速度,并采用数据屏蔽和随机重编码的方案来防御功耗分析攻击.基于字串行架构实现了模乘和求逆运算,并提出了相应的可伸缩蒙哥马利模乘算法,使基本运算具有数据通路小、可伸缩性强的特点.在VLSI设计上实现了模乘和求逆运算的硬件复用,大幅度地降低了成本.FPGA验证表明协处理器能够正确地完成所有预定的功能.TSMC0.25um工艺综合结果显示,协处理器的工作频率可达170MHZ,总的规模(包括核心电路与存储单元)约为26K等效门.因此本文RSA协处理器体现了多功能、可伸缩、抗攻击和低成本的综合优势. 相似文献
5.
双精度普通矩阵乘法DGEMM是BLAS库中最核心的函数之一,大部分三级BLAS库函数的核心计算都是通过调用DGEM M来实现的.该文针对龙芯3A具有128位访存指令的特点,通过理论分析,找到了最佳的循环展开方式;针对龙芯3A的Cache替换策略(随机替换),通过使用地址交错技术,减少了Cache的冲突失效;针对龙芯3A访存带宽有限的问题,通过使用共享数据的任务划分方式,减少了数据访存量.优化后的DGEMM单核和多核运算速度均是性能最高的开源BLAS库(Goto-BLAS)的2倍多. 相似文献
6.
一维Walsh变换的阵列协处理器的设计 总被引:3,自引:0,他引:3
本文给出了一种用短序列Walsh变换芯片构成长序列Walsh变换阵列协处理器的方法.按此法,易用2~t片2~t长芯片构成2~(2t)长的Walsh变换的阵列协处理器,并且易用2~(t+1)片2~t长芯片及2~(2t)个蝶形运算器构成2~(2t+1)长的Walsh变换的阵列协处理器. 相似文献
7.
一种改进的嵌入式SIMD协处理器设计 总被引:1,自引:0,他引:1
论文介绍的SIMD协处理器是用于低层图像理解的16位定点嵌入式阵列处理器。该协处理器采用load/store体系结构,并且除SIMD固有的数据并行性外,还具有三级流水和三组指令并发执行的并行性。三组指令并发执行使数据交换操作和其它类型操作并发执行,从而实现了数据交换操作的隐含执行,大大减少了通信和I/O操作的开销。 相似文献
8.
9.
低成本的密钥长度可配置RSA密码协处理器VLSI设计 总被引:1,自引:0,他引:1
采用基于字运算的高基Montgomery模乘算法,并且应用了改进的流水线组织结构,以较小的硬件开销实现了一个密钥长度最高可达2048bits、速度面积比性能很高的RSA密码协处理器.VLSI实现结果显示:不包含存储器的核心电路规模仅相当于18000等效门;基于0.25μm CMOS工艺,在180MHz的时钟频率下,1024bits的RSA加密速率可达28Kbps.该RSA密码协处理器非常适合于如智能IC卡等面积局限性高、成本敏感的产品中. 相似文献
10.
12.
大规模三角线性方程求解是科学与工程应用中重要的计算核心,受限于处理器的缓存容量和结构设计,其在CPU和GPU等平台上的计算效率不高。大规模三角线性方程的分块求解中,矩阵乘是主要运算,其计算效率对提升三角线性方程求解的计算效率至关重要。以矩阵乘计算效率较高的矩阵乘协处理器为计算平台,针对其结构特点提出了矩阵乘协处理器上大规模三角线性方程分块求解的实现方法和性能分析模型。实验结果表明,矩阵乘协处理器上大规模三角线性方程求解的计算效率最高可达85.9%,其实际性能和资源利用率分别为同等工艺下GPU的2.42倍和10.72倍。 相似文献
13.
Subhash C. Kak 《Parallel Computing》1988,6(3):383-385
A two-layered mesh array for matrix multiplication is presented. It computers the matrix product faster than the standard array. 相似文献
14.
提出了两种高基Montgomery模乘线性阵列结构。两种线性阵列结构分别利用两种不同的并行化开发方法,沿不同的循环维度进行任务分配和调度,都能够充分开发算法的流水线并行。在Xilinx XC5VLX330 FPGA上实现了两种256位宽、基为216的模乘阵列结构。实验结果表明,两种结构具有84个时钟周期的延迟,吞吐率分别为1/17和1/21,与相关结构相比吞吐率更高。两种结构在性能和实现代价间能够达到合理平衡。 相似文献
15.
16.
BLAS (basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外, BLAS 3级属于计算密集型函数,对充分发挥处理器的计算性能有至关重要的作用.针对国产SW26010-Pro处理器研究BLAS 3级函数的众核并行优化技术.具体而言,根据SW26010-Pro的存储层次结构,设计多级分块算法,挖掘矩阵运算的并行性.在此基础上,基于远程内存访问(remote memory access, RMA)机制设计数据共享策略,提高从核间的数据传输效率.进一步地,采用三缓冲、参数调优等方法对算法进行全面优化,隐藏直接内存访问(direct memory access, DMA)访存开销和RMA通信开销.此外,利用SW26010-Pro的两条硬件流水线和若干向量化计算/访存指令,还对BLAS 3级函数的矩阵-矩阵乘法、矩阵方程组求解、矩阵转置操作等若干运算进行手工汇编优化,提高了函数的浮点计算效率.实验结果显示,所提出的并行优化技术... 相似文献
17.
L. D. Jelfimova 《Cybernetics and Systems Analysis》2008,44(3):357-361
This paper proposes a cellular method of matrix multiplication. The method reduces the multiplicative and additive complexities of well-known matrix multiplication algorithms by 12.5%. The computational complexities of cellular analogs of such algorithms are estimated. A fast cellular analog is presented whose multiplicative and additive complexities are equal to ≈0.382n3 multiplications and ≈1.147n3 additions, respectively, where n is the order of the matrices being multiplied. __________ Translated from Kibernetika i Sistemnyi Analiz, No. 3, pp. 55–59, May–June 2008. 相似文献
18.
Systolic乘法是一种基于SIMD-MC2模型的矩阵乘算法,无法直接应用在单独的嵌入式系统中,所以提出一种采用FPGA技术实现Systolic乘法的方法。该方法将FPGA的硬件并行特性与巧妙的并行算法结合起来,利用FPGA灵活可编程的特点,在FPGA内部设计了一种基于MC2模型的节点阵列来实现Systolic乘法。实际应用中,可以灵活地修改节点单元的数量和节点的功能来满足不同规模的运算矩阵需求并充分利用FPGA的资源。仿真结果验证了该方法的正确性。实际测试结果表明:该方法具有较快的速度和较高的实时性。 相似文献