共查询到19条相似文献,搜索用时 218 毫秒
1.
矩阵乘运算在多个应用领域特别是数值计算领域被广泛使用,但双精度浮点矩阵乘在CPU,GPGPU,FPGA等现有计算平台上的性能和效率受限,其往往成为大规模数值计算应用的性能瓶颈.针对该问题,以线性阵列计算结构为基础,研究了双精度浮点矩阵乘的定制加速.首先,对线性阵列计算结构进行了双缓冲优化并设计了针对双缓冲的存储访问调度,以提高结构的计算效率.其次,提出了矩阵乘协处理器和加速计算系统的结构,构建了协处理器的性能模型并对其结构设计空间进行了探索.最后,验证了协处理器的功能正确性并在某主流工艺下评估了其硬件开销.实验结果表明,设计的双精度浮点矩阵乘协处理器可以达到3 TFLOPS的计算性能和99%的计算效率.与NVIDIA K40 GPGPU相比,协处理器执行双精度浮点矩阵乘的性能是K40的1.95倍,而面积开销仅为K40的21.05%.探索了定制加速结构设计在高性能计算中的应用,对现有计算系统的性能提升具有一定的参考价值. 相似文献
2.
BLAS level 3运算的计算复杂度较高,其往往成为应用的性能瓶颈。采用线性阵列结构的矩阵乘协处理器可实现高性能、高效的矩阵乘运算。在矩阵乘协处理器上高效实现BLAS level 3运算,对大规模科学与工程仿真应用的计算加速至关重要。以矩阵乘为核心运算,结合线性阵列的结构特点,提出了矩阵乘协处理器上BLAS level 3运算的设计,并构建了相应的性能分析模型。实验结果表明,矩阵乘协处理器上SYMM、SYRK和TRMM运算的计算效率分别达到了99%,98%和80%,与SW26010和NVIDIA V100 GPU上矩阵运算的计算效率相比,最高提升了31%。 相似文献
3.
4.
基于FPGA的多项式基下二进制域ECC点乘设计 总被引:1,自引:0,他引:1
文中基于经典蒙哥马利点乘算法,通过算法改进,模乘采用部分并行设计,在射影坐标系下实现模逆算法。通过VHDL语言进行设计描述,完成了椭圆曲线底层的模乘、模逆的模块设计,并通过一系列的状态机调用各个模块组合,最终完成点乘运算的设计。整个系统结构进行了优化处理,最终在Cyclone系列的EP2C35F484C5上,利用QuartusⅡ平台分析得出时钟频率为50.3MHZ,逻辑单元个数为25044个。 相似文献
5.
乘潮水位计算是海洋环境信息处理的重要组成部分,具有计算量大、计算复杂度高、计算时间长等特性。采用传统集群计算模式实现乘潮水位计算业务,存在计算成本高、计算伸缩性和交互性差的问题。针对以上问题,提出一种基于Spark框架的乘潮水位计算和可视化平台。结合对Spark任务调度算法的研究,设计和实现了一种基于节点计算能力的任务调度算法,实现了长时间序列的多任务乘潮水位数据的检索、获取、数值计算、特征可视化的并行处理,达到了海量海洋环境数据计算和可视化处理的目的。实验结果表明,提出的基于Spark的乘潮水位计算和可视化平台可以有效地提高海量乘潮水位数据的分布式并行处理的效率,为更加快速和高效的乘潮水位计算提供了一种新的方法。 相似文献
6.
基于基为4的Montgomery模乘算法和改进的流水线组织结构,文章提出了一种结构优化的可扩展模乘运算器结构。设计中采用了按字运算的模乘算法,使本设计具有很好的可扩展性,它可以完成任意位数的模乘运算。同时,因为模乘运算器的运算数据通路采用多级处理单元的流水线结构,所以设计时可以很方便进行配置,以达到模乘运算器硬件成本和运算性能的折衷。分析结果显示,文章提出的模乘运算器结构具有很高的效率和很好的可扩展性。 相似文献
7.
以牛顿法为基础,通过符号运算求导和信赖域方法,解决其Hesse矩阵计算工作量大和局部收敛性的问题,设计和实现了非线性最小二乘的通用算法。该方法计算速度快,计算精度高,对初始值的选择不敏感,不仅可以直接用于线性最小二乘,而且可以适用于大数据量的非线性最小二乘。数值试验的结果表明了算法的可行性。 相似文献
8.
椭圆曲线密码中一种多标量乘算法 总被引:2,自引:0,他引:2
标量乘和多标量乘是实现椭圆曲线密码体制的核心运算,其运算速度从整体上决定了椭圆曲线密码体制的实现效率.提出了一种多标量乘算法,该算法的基本思想是,将标量用带符号的整数阶乘展开式表示,并结合固定基窗口标量乘算法,使得实现多标量乘算法只需做点加运算即可.这不仅突破了传统求多标量乘算法的模式,而且提高了多标量乘的计算速度.同... 相似文献
9.
稀疏矩阵向量乘(Sparse Matrix-Vector Multiply,SMVM),形如Ab=x,在科学计算、信息检索、数据挖掘等领域中都是重要的计算核心之一。稀疏矩阵中非零元素的稀疏性,使得在微处理器上实现该类运算时,存在Cache缺失率高等问题,导致性能并不理想。针对该问题提出了基于FPGA实现SMVM运算系统的新思路,对系统功能进行了软硬件划分,并完成了系统中硬件浮点乘累加处理单元(ProcessingElement,PE)的设计与实现。目标器件为Virtex4LX60,工作频率达到123.6MHz。 相似文献
10.
在大规模和长时程数值计算中,浮点运算的舍入误差的累积效应可能导致数值结果不可信.求和与点乘是浮点数值计算中最为基础的运算,在大规模科学计算过程中被频繁调用,其数值结果精度至关重要.面向国产飞腾处理器,基于OpenBLAS,采用无误差变换技术设计了高效的汇编内核函数,实现并优化了高精度的求和与点乘算法.数值实验显示,该高... 相似文献
11.
12.
13.
14.
基于高基阵列乘法器的高速模乘单元设计与实现 总被引:1,自引:0,他引:1
蒙哥马利模乘算法是最适合硬件实现的模乘算法,被应用在RSA密码和ECC密码的协处理器设计中.目前性能最高的是高基蒙哥马利模乘算法,分析了高基蒙哥马利算法的实现,提出了一种新的基于高基阵列乘法器的Montgomery模乘高速硬件实现结构,基于这种结构位长为n的比特模乘仅需要约n/w+6个时钟周期,该结构设计的电路只与最小单元有关,在硬件实现时可以大大提高频率,并提高设计的性能,可以设计高速的RSA和椭圆曲线密码大规模集成电路. 相似文献
15.
已有的对正规基模乘算法的研究大多针对较小的有限域,不利于将其直接扩展到像GF(2^233)等大有限域中进行FPGA设计实现。为在FPGA上实现正规基下的模乘算法,给出了一种在速度和资源两方面可以折衷的方案以及具体的FPGA实现算法,并实现了硬件描述语言程序设计。在Xilinx的FPGA器件的基础上,完成算法的仿真、综合、布局布线试验。试验表明,实现的模乘算法方案较其它方案更适合于FPGA编程实现。 相似文献
16.
17.
加速GF(2m)上的模乘运算是提高GF(2^m)上ECC算法性能的关键。在分析EC上点乘操作的基础上,我们构造了模乘运算在线性Systolic上实现的局部并行处理递推形式,并设计了Systolic阵列的具体单元结构和连接,给出了性能分析和模拟结果。实验证明,局部并行阵列结构能适应多种EC上的模乘处理。 相似文献
18.
19.
提出了一种集成模乘求逆双重运算的抗攻击RSA协处理器设计.在设计中引入了指数重编码和双位扫描的方法以提高模幂运算的速度,并采用数据屏蔽和随机重编码的方案来防御功耗分析攻击.基于字串行架构实现了模乘和求逆运算,并提出了相应的可伸缩蒙哥马利模乘算法,使基本运算具有数据通路小、可伸缩性强的特点.在VLSI设计上实现了模乘和求逆运算的硬件复用,大幅度地降低了成本.FPGA验证表明协处理器能够正确地完成所有预定的功能.TSMC0.25um工艺综合结果显示,协处理器的工作频率可达170MHZ,总的规模(包括核心电路与存储单元)约为26K等效门.因此本文RSA协处理器体现了多功能、可伸缩、抗攻击和低成本的综合优势. 相似文献