首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 226 毫秒
1.
矩阵乘法作为高性能计算中的关键组成部分,是一种具有计算和访存密集特点的典型应用,因此优化矩阵乘法的性能对通用处理器是非常重要的.为了提高矩阵乘法的性能,本文提出了一种性能模型,用于预测通用处理器上矩阵乘法的执行时间.该模型反映了矩阵乘法执行时间与通用处理器的运算部件、访存带宽、寄存器个数等结构参数之间的关系,可以指导处理器结构的优化来平衡计算和访存能力、提高执行速度.基于该模型本文给出了在一个优化的通用处理器结构中,寄存器个数和访存带宽应满足的理论下界.本文在Godson-3B处理器平台上对该性能模型进行了验证,实验结果表明矩阵乘法执行时间的预测精确度达到95%以上.基于该模型,本文还提出了一种对Godson-3B结构进行优化的方法,使矩阵乘法的执行时间减少了50%左右.  相似文献   

2.
矩阵乘法是许多应用中的核心计算,在这些应用中只是少量矩阵元素发生改变,如果全量重新计算则工作量很大,因此增量计算是解决该问题的有效手段. 本文提出了一种基于MapReudce模型的增量矩阵乘法计算方法,以及计算矩阵中变化元素的高效识别方法,通过利用矩阵元素的摘要信息快速计算出变化元素,然后将矩阵乘法计算过程转换为一系列等价的连接问题,实现了一种有效的矩阵乘法增量计算. 对于矩阵元素变化率较小的情形,计算实验表明提出的方法计算时间上明显优于全量重新计算方法.  相似文献   

3.
一种基于MapReduce并行框架的大规模矩阵乘法运算的实现   总被引:1,自引:0,他引:1  
在机器学习算法中,矩阵乘法运算是一种基本运算.而扩大矩阵乘法的运算规模并降低其运算时间,将有利于满足机器学习算法处理大规模数据的要求.将MapReduee并行框架用于分块矩阵乘法,实现一种用于大规模矩阵乘法运算的方法.理论分析和实验结果表明该方法在处理大规模矩阵乘法上具有极大的潜能,并且随着计算节点的增加从而获得较好的加速比.  相似文献   

4.
刘青昆  马名威  阎慰椿 《计算机应用》2011,31(12):3327-3330
矩阵乘法在科学计算领域中起着重要的作用,不同结构模型能够改善并行矩阵乘的性能。现有的MPI+CUDA同步模型中,主机端需要进入等待状态,直到设备端完成任务后才能继续工作,这显然浪费时间。针对上述问题,提出一种基于MPI+CUDA异步模型的并行矩阵乘法。该模型避免了主机端进入等待状态,并采用CUDA流技术解决数据量超过GPU内存问题。通过分析异步模型的加速比和效率,实验结果表明,此方法显著提高了并行效率和大型矩阵乘法的运算速度,充分发挥了节点间分布式存储和节点内共享内存的优势,是一种有效可行的并行策略。  相似文献   

5.
阐述MPI与OpenMP进行并行计算的特点,并在Visual Studio 2010上构建一个基于两者的混合编程平台。程序在该平台上执行时能够同时实现多进程与进程内多线程编程,设计并实现一种基于数据划分的矩阵乘法的并行算法,将数据分解为两部分交给两个计算节点分别完成,并在每个计算节点内将数据进一步划分,交给多个线程同时执行。通过与非并行矩阵乘法、MPI矩阵乘法、OpenMP矩阵乘法运算性能进行比较,验证该算法可以有效地挖掘计算机的处理能力。  相似文献   

6.
基于三值逻辑光学处理器实现向量矩阵乘法 *   总被引:4,自引:1,他引:3  
向量矩阵乘法是一种应用广泛的运算,用光学方法实现向量矩阵乘法能够充分发挥光处理的并行优 势,旨在提出一种新的实现向量矩阵乘法的光学方法。受到三值逻辑光学处理器结构的启发,提出用该处理器 实现二进制向量矩阵乘法,这个新方法能够克服传统光学向量矩阵乘法器结构中存在的一些不足。详细说明了 实现的原理和过程,并讨论了这种新方法的优点,最后展望了这种新型的光学处理器的发展前景。  相似文献   

7.
李梅 《微机发展》2012,(3):47-50
旨在对光学向量矩阵乘法进行实验研究。针对Goodman向量矩阵乘法器原理光路模型中存在的结构庞大、可实现的运算规模有限、制作成本较高等问题,提出了一种用液晶阵列实现向量矩阵乘法的方法。该方法具有易于微型化、可完成大规模的二进制向量矩阵乘法运算、制作成本较低的优点。对该方法的原理进行详细地说明;并利用本课题组开发完成的三值逻辑光处理器作为实现该方法的核心器件,完成了实验。实验结果表明该方法具有正确性和巨大的并行处理优势。  相似文献   

8.
在许多应用领域中,大规模浮点矩阵乘法往往是最耗时的计算核心之一。在新兴的应用中经常存在至少有一个维度很小的大规模矩阵,我们把具备这种特性的矩阵称为非均匀矩阵。由于FPGA上用以存储中间结果的片上存储器容量十分有限,计算大规模矩阵乘法时往往需要将矩阵划分成细粒度的子块计算任务。当加速非均匀矩阵乘法时,由于只支持固定分块大小,大多数现有的线性阵列结构的硬件矩阵乘法器将遭受很大的性能下降。为了解决这个问题,提出了一种有效的优化分块策略。在此基础上,在Xilinx公司的Zynq XC7Z045FPGA芯片上实现了一个支持可变分块的矩阵乘法器。通过集成224个处理单元,该矩阵乘法器在150 MHz的时钟频率下对于实际应用中的非均匀矩乘达到了48GFLOPS的实测性能,而所需带宽仅为4.8GB/s。实验结果表明,我们提出的分块策略相比于传统的分块算法实现了高达12%的性能提升。  相似文献   

9.
目前的矩阵乘法算法无法处理大规模和超大规模的矩阵,而随着MapReduce编程框架的提出,并行处理矩阵乘法成为解决大矩阵运算的主要手段。总结了矩阵乘法在MapReduce编程模型上的并行实现方法,并提出了实现高性能大矩阵乘法的策略——折中单个工作节点的计算量和需要网络传输的数据量。实验证明,并行实现算法在大矩阵上明显优于传统的单机算法,而且随着集群中节点数目的增多,并行算法会表现出更好的性能。  相似文献   

10.
基于FPGA的高速椭圆曲线标量乘法结构   总被引:2,自引:0,他引:2  
椭圆曲线密码系统是最近十几年来获得迅速发展的一类密码系统.为了提高椭圆曲线密码系统的处理速度,针对其中最关键的运算--椭圆曲线标量乘法设计并实现了一种基于FPGA的硬件结构,完成GF(2m)上的椭圆曲线标量乘法计算.该结构最大程度地对标量乘算法的内部模块进行了并行处理,缩短最大延迟路径,从而达到提高运算速度的目的.这一结构在FPGA上实现后,计算一次GF(2 163)上的椭圆曲线标量乘法只需要36μs,这一性能是目前国际上已知的基于FPGA的标量乘法器中最好的.  相似文献   

11.
正规基中模乘算法的FPGA实现方法研究   总被引:1,自引:0,他引:1  
给出了GF(2m)上椭圆曲线密码系统中最佳正规基表示的模乘运算优化算法,提出了该算法的FPGA实现方案,并详细分析了实现该算法的有限状态机模型。结合Xilinx的FPGA器件,用VerilogHDL编写了实现该有限状态机的代码,在ISE和ModelSim开发工具中通过仿真、综合。试验表明,该文实现的模乘方案较其他实现方案具有较高的速度,并在EC-Elgamal密码体系中得到较好的应用。  相似文献   

12.
为了提高椭圆曲线密码处理器的模乘速度,本文提出了一种更有效且更适合硬件实现的Montgomery算法。改进的算法分析了基于CSA加法器的Montgomery模乘算法,提出了多步CSA加法器的Montgomery算法,该算法能够在一个时钟内做多次CSA迭代运算,可以有效地降低时钟个数,进而提高模乘速度。通过Modelsim仿真工具仿真,正确完成一次256bits Montgomery模乘运算只需要16个时钟周期。在Altera EP3SL200F1517C2 FPGA中的运行结果表明:71.5MHz的时钟频率下,完成一次256位的模乘运算仅需要0.22微秒。  相似文献   

13.
RSA算法是目前应用最广泛的一种公钥加密算法,随着人们对加密安全性和加密速度要求的提高,硬件实现加密算法成了密码学应用的一个趋势。模乘算法是模幂算法的核心,基于Montgomery算法,结合Booth2算法的思想,文章给出了一种改进的高效算法,并且通过FPGA实现。对该算法和参考文献中算法的性能进行了比较,可以看出这一改进算法在速度和面积上优于现有的算法。  相似文献   

14.
王友波  韩月秋 《计算机工程与设计》2005,26(10):2614-2615,2724
已有的对正规基模乘算法的研究大多针对较小的有限域,不利于将其直接扩展到像GF(2^233)等大有限域中进行FPGA设计实现。为在FPGA上实现正规基下的模乘算法,给出了一种在速度和资源两方面可以折衷的方案以及具体的FPGA实现算法,并实现了硬件描述语言程序设计。在Xilinx的FPGA器件的基础上,完成算法的仿真、综合、布局布线试验。试验表明,实现的模乘算法方案较其它方案更适合于FPGA编程实现。  相似文献   

15.
点乘算法是椭圆曲线密码体制中决定速度和硬件资源的关键部分。在深入分析混合结构乘法器并在FPGA上实现经典椭圆曲线点乘算法基础上,设计与实现了一种基于NAF编码混合结构乘法器思想的椭圆曲线点乘算法。对实现的点乘算法进行仿真测试和性能评估表明,新设计实现的基于混合结构乘法器的点乘算法在计算速度和资源使用上具有明显优势。  相似文献   

16.
在讨论了逆QR分解(逆正交三角分解)SM(I采样矩阵求逆)自适应波束形成算法的基础上,研究了逆QR分解SMI算法的Systolic阵列(脉动阵列)并行实现结构,分析了组成Systolic阵列的各PE(处理单元)单元的基本运算模块的实现,并给出了逆QR分解SMI算法基于Systolic阵列结构的FPGA(现场可编程门阵列)并行实现方法,提出了系统整体的设计与构架。  相似文献   

17.
在FPGA可编程硬件平台上设计实现了基于珀林噪声函数的过程性纹理生成算法.该算法充分利用了FPGA硬件设计的优势,针对这一算法基于像素密集求解的特点,更快、更好地进行设计实现.利用该算法可以实时地生成许多不同的自然材质或现象的纹理,如木料、云石、云朵等,其纹理可以随时间动态变换,以产生真实的运动效果.文中采用了一种新的珀林(Perlin)噪声函数,以充分应用硬件电路的结构特点,耗费较少的硬件资源,达到各种运算单元(如加法和乘法)模块的组合和高度复用.  相似文献   

18.
提出一种使用Radix-8 Booth译码的Montgomery模乘算法,进一步减少了模乘的中间乘积项个数,提高了模乘的速度.并给出基于该模乘算法的1024位RSA加密硬件的实现方案,其加密速度可达到采用普通Montgomery模乘的RSA加密方案的2倍.在设计方法上使用基于系统级算法的快速设计流程,在系统级设计阶段确定模乘和RSA整体算法的实现方案,并对其评估及优化,缩短了RTL阶段的设计时间,加快了设计思想到硬件实现的转化.实现方案在自行设计的FPGA开发板上通过验证,并进一步转换为ASIC设计综合.  相似文献   

19.
为了实现椭圆曲线密码算法的高效性,提出了基于优化的底层有限域算法的点乘设计方法;基于对二进制有限域运算的研究,提出并行模乘算法和基于欧几里得算法的右移求逆算法,并在实现中进行优化,在此基础上采用蒙哥马利算法实现点乘的快速运算;根据该算法,提出了ECC硬件电路实现方法,并用Verilog RTL进行逻辑设计,最终在Xilinx的XC7A100T FPGA硬件平台上验证实现;通过仿真测试、综合验证和时序后仿真的结果分析,所设计电路的时钟频率可以达到110 MHz,运算速度可达2.92 ms,证明了设计的有效性和可行性。  相似文献   

20.
针对信道化滤波器要求运算速度快、消耗资源多、难以实时处理的突出问题,从多相滤波器,信道化滤波器的结构、原理和运算效率分析出发,推导了一种基于多相带通结构的信道化滤波器算法模型。这种算法将现有多相结构信道化滤波器模型中的低通设计改为带通设计,实现了复数乘法运算全部集中在带通滤波环节当中,并采用协调分级DFT算法的实现方案,大幅度节省了硬件资源,提高了运算效率,实现了信道化滤波器在通用FP—GA和DSP芯片中的实时处理,硬件仿真结果验证了算法模型的正确性和有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号