首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 656 毫秒
1.
基于二进制多字Montgomery模乘算法,提出了一种参数可灵活配置的规则的脉动阵列硬件结构,并使用此结构在FPGA上实现了不同位宽的Montgomery模乘算法.该结构成功地在不增加额外电路或运行周期的情况下,将脉动阵列的关键路径限制在运算单元内部的加法器中.硬件实现结果表明,该结构具有更高的电路频率、更少的电路面积消耗及算法运算时间.  相似文献   

2.
针对签名验签速度难以满足特定应用领域需求的问题,该文设计了一种高性能Ed25519算法的硬件实现架构.采用宽度为2 bit的窗口法实现标量乘运算,减少了标量乘所需的总周期数;通过优化点加倍点操作步骤,提高了乘法器的硬件使用率;使用低计算复杂度的快速模约简实现模乘,提高了整体运算速度.为了使模L运算可复用标量乘中的快速模约简,该文提出一种基于Barrett约简的模L算法.通过优化解压过程中模幂操作过程,精简了步骤并使其可复用模乘.对所提架构做硬件实现,在TSMC的55 nm CMOS工艺下,面积为746×103等效门,最高频率360 MHz,每秒能够执行公钥生成9.06×104次、签名8.82×104次和验签3.99×104次.  相似文献   

3.
针对签名验签速度难以满足特定应用领域需求的问题,该文设计了一种高性能Ed25519算法的硬件实现架构。采用宽度为2 bit的窗口法实现标量乘运算,减少了标量乘所需的总周期数;通过优化点加倍点操作步骤,提高了乘法器的硬件使用率;使用低计算复杂度的快速模约简实现模乘,提高了整体运算速度。为了使模L运算可复用标量乘中的快速模约简,该文提出一种基于Barrett约简的模L算法。通过优化解压过程中模幂操作过程,精简了步骤并使其可复用模乘。对所提架构做硬件实现,在TSMC的55 nm CMOS工艺下,面积为746×103等效门,最高频率360 MHz,每秒能够执行公钥生成9.06×104次、签名8.82×104次和验签3.99×104次。  相似文献   

4.
为了实现对高速输入数据的滤波,根据FIR(有限冲激响应)数字滤波器并行设计思想,在脉动阵列FIR数字滤波器的基础上,经过认真设计,提出了一种基于FPGA(现场可编程门阵列)的高速FIR数字滤波器的设计方法。以一个16阶FIR数字滤波器的设计为例,在FPGA上用VHDL语言实现了这种设计方法。在Modelsim下仿真表明这一方法是可行的,可支持高达1GSPS(10亿次采样每秒)的输入数据.  相似文献   

5.
素域中的模乘运算是椭圆曲线密码体制中必不可少的基本运算,模乘运算的速度影响椭圆曲线算法的整体性能.文中设计了一种融合了窗口技术和流水线技术的素域模乘快速实现方法,采用硬件描述语言VHDL完成模乘的设计实现,并优化设计,充分发挥了流水线的优势.通过Modelsim仿真工具仿真,正确完成一次模乘运算只需要96个时钟周期.在Altera EP2AGX45 FPGA中的运行结果表明:150 Mhz的时钟频率下,完成一次384 bits的模乘运算仅需要0.64 us.  相似文献   

6.
CSSA-低功耗Montgomery模乘的环形脉动阵列   总被引:1,自引:0,他引:1  
文章提出了一种环形脉动阵列CSSA(Circular Structured Systolic Array),用于实现Montgomery模乘算法MMM(Montgomery Modular Multiplication)。该阵列采用循环结构,迭代计算。仿真结果表明,与基于一维脉动阵列的MMM硬件实现相比,该结构牺牲了运算时间,但是降低了功耗和芯片面积(本文实现的两个例子,功耗和芯片面积均减少了约97%)。并且,处理单元的数量可配置,以平衡速度和功耗。  相似文献   

7.
陈铠  周海斌  刘刚 《电子工程师》2009,35(2):19-21,48
介绍了基于Xilinx公司FPGA(现场可编程门阵列)实现高速实时数字脉冲压缩处理的设计方法。本数字脉冲压缩模块由3片FPGA级联,分别完成脉冲压缩运算中的FFT(快速傅里叶变换)、复数乘窗和IFFT(快速傅里叶反变换)功能。在Xilinx器件上实现了数字脉冲压缩算法。通过与MATLAB仿真结果比较,该数字脉冲压缩模块很好地实现了32k点的块浮点数字脉冲压缩功能,吞吐率达到200MSPS(百万次采样每秒)。  相似文献   

8.
文章在深入分析ECC点乘运算的FPGA实现的基础上,提出了一种参数可重构的、基于正规基有限域运算的ECC点乘运算结构。该点乘运算结构采用了复用、并行化等措施,在FPGA上实现了GF(2^191)的ECC点乘运算。在Altera FPGA上的仿真结果表明:在50Mhz时钟下,一次点乘运算只需413.28us。  相似文献   

9.
针对椭圆曲线密码算法复杂、计算开销大、运算强度高和数据量大的特点,提出一种ECC算法硬件实现阵列处理结构,设计了有限域GP(2m)上的核心运算(模乘和模除运算)模块,实现了核心算法到计算结构的空间映射.设计原型在Xilinx公司Virtex-E系列FPGA器件上实现并进行验证.实验结果表明,该结构可获得较高的并行处理能力和计算效率,时钟频率和运算速度显著提高,在100 MHz时钟频率下,点乘运算速度达到平均90多次/秒.  相似文献   

10.
本文简单介绍NiosⅡ软核处理器的功能及基于FPGA的ECCDSA签名验证算法的设计方法,综合利用NiosII软核处理器的可配置性和传统FPGA硬件设计的方法,完成了ECCDSA签名验证终端系统的设计实现.  相似文献   

11.
RSA密码协处理器的实现   总被引:11,自引:0,他引:11  
李树国  周润德  冯建华  孙义和 《电子学报》2001,29(11):1441-1444
密码协处理器的面积过大和速度较慢制约了公钥密码体制RSA在智能卡中的应用.文中对Montgomery模乘算法进行了分析和改进,提出了一种新的适合于智能卡应用的高基模乘器结构.由于密码协处理器采用两个32位乘法器的并行流水结构,这与心动阵列结构相比它有效地降低了芯片的面积和模乘的时钟数,从而可在智能卡中实现RSA的数字签名与认证.实验表明:在基于0.35μm TSMC标准单元库工艺下,密码协处理器执行一次1024位模乘需1216个时钟周期,芯片设计面积为38k门.在5MHz的时钟频率下,加密1024位的明文平均仅需374ms.该设计与同类设计相比具有最小的模乘运算时钟周期数,并使芯片的面积降低了1/3.这个指标优于当今电子商务的密码协处理器,适合于智能卡应用.  相似文献   

12.
A novel hardware architecture for elliptic curve cryptography (ECC) over$ GF(p)$is introduced. This can perform the main prime field arithmetic functions needed in these cryptosystems including modular inversion and multiplication. This is based on a new unified modular inversion algorithm that offers considerable improvement over previous ECC techniques that use Fermat's Little Theorem for this operation. The processor described uses a full-word multiplier which requires much fewer clock cycles than previous methods, while still maintaining a competitive critical path delay. The benefits of the approach have been demonstrated by utilizing these techniques to create a field-programmable gate array (FPGA) design. This can perform a 256-bit prime field scalar point multiplication in 3.86 ms, the fastest FPGA time reported to date. The ECC architecture described can also perform four different types of modular inversion, making it suitable for use in many different ECC applications.  相似文献   

13.
43位浮点流水线乘法器的设计   总被引:1,自引:0,他引:1       下载免费PDF全文
梁峰  邵志标  孙海珺   《电子器件》2006,29(4):1094-1096,1102
提出一种浮点流水线乘法器IP芯核。该乘法器采用改进的三阶Booth算法减少部分积数目,提出了一种压缩器混用的Wallace树结构压缩阵列,并对关键路径中的5-2压缩器、4—2压缩器和64位CLA加法器进行了优化设计,有效降低了乘法器的延时和面积。经FPGA仿真验证表明,该乘法器运算能力比Altera公司近期提供的同类乘法器单元快15.4%。  相似文献   

14.
基于Montgomery模乘的RSA算法VLSI实现   总被引:2,自引:1,他引:1  
介绍了一种基于可伸展的Montgomery模乘结构的1024位RSA加解密芯片实现。设计采用的新型心动阵列结构,可以有在有效控制芯片面积的前提下,极大地提高运算频率,从而提高运算速度。经过ModelSim仿真和Design Compiler综合,与当前已发表的RSA芯片设计相比,该设计在面积和速度上均有优势。  相似文献   

15.
This paper presents a novel variable-latency multiplier architecture, suitable for implementation as a self-timed multiplier core or as a fully synchronous multicycle multiplier core. The architecture combines a second-order Booth algorithm with a split carry save array pipelined organization, incorporating multiple row skipping and completion-predicting carry-select dual adder. The paper reports the architecture and logic design, CMOS circuit design and performance evaluation. In 0.35 μm CMOS, the expected sustainable cycle time for a 32-bit synchronous implementation is 2.25 ns. Instruction level simulations estimate 54% single-cycle and 46% two-cycle operations in SPEC95 execution. Using the same CMOS process, the 32-bit asynchronous implementation is expected to reach an average 1.76 ns throughput and 3.48 ns latency in SPEC95 execution  相似文献   

16.
A high-speed 4-bit ALU, 4×4-bit multiplier, and 8×8-bit multiplier/accumulator have been implemented in low-power GaAs enhanced/depletion E/D direct-coupled FET logic (DCFL). Circuits are fabricated with a high-yield titanium tungsten nitride self-aligned gate MESFET process. The 4-bit ALU performs at up to 1.2 GHz with only 131-mW power dissipation. The multiplication time for the 4×4-bit array multiplier is 940 ps, which is the fastest multiplication time reported for any semiconductor technology. The 8×8-bit two's complement multiplier/accumulator uses 4278 FETs (1317 logic gates) and exhibits a multiplication time of 3.17 ns. the fastest yet reported for a multiplier of this type. Yield on the best wafer for the 4×4-bit and 8×8-bit circuits is 94 and 43%, respectively. A digital arithmetic subsystem has been demonstrated, consisting of the 8×8-bit multiplier/accumulator, two of the 4-bit ALUs, three logical multiplexers, and a logical demultiplexer. The subsystem performs arithmetic and logic functions required in signal processing at clock rates as high as 325 MHz  相似文献   

17.
This article presents the VLSI design of a configurable RSA public key cryptosystem supporting the 512-bit, 1024-bit and 2048-bit based on Montgomery algorithm achieving comparable clock cycles of current relevant works but with smaller die size. We use binary method for the modular exponentiation and adopt Montgomery algorithm for the modular multiplication to simplify computational complexity, which, together with the systolic array concept for electric circuit designs effectively, lower the die size. The main architecture of the chip consists of four functional blocks, namely input/output modules, registers module, arithmetic module and control module. We applied the concept of systolic array to design the RSA encryption/decryption chip by using VHDL hardware language and verified using the TSMC/CIC 0.35 m 1P4 M technology. The die area of the 2048-bit RSA chip without the DFT is 3.9 × 3.9 mm2 (4.58 × 4.58 mm2 with DFT). Its average baud rate can reach 10.84 kbps under a 100 MHz clock.  相似文献   

18.
A 135K transistor, uniformly pipelined 50-MHz CMOS 64-bit floating-point arithmetic processor chip is described. The execution unit is capable of sustaining pipelined performance of one 32-bit or 64-bit result every 20 ns for all operations except double-precision multiply (40 ns) and divide. The chip employs an exponent difference prediction scheme and a unified leading-one and sticky-bit computation logic for the addition and subtraction operations. A hardware multiplier using a radix-8 modified Booth algorithm and a divider using a radix-2 SRT algorithm are employed.<>  相似文献   

19.
一种基于FPGA的高性能FFT处理器设计   总被引:1,自引:0,他引:1  
FFT算法是高速实时信号处理的关键算法之一,在数字EW接收机中有着广泛的应用前景。本文基于Xilinx公司的Vertex-IIPro系列FPGA,设计一种级联结构的1024点FFT处理器,采用基-4并行蝶算单元,能并行处理四路输入数据,极大地提高了FFT的处理速度。在系统时钟为100MHz时,完成1024点复数FFT运算仅需要2.56μs。  相似文献   

20.
黄宁  朱恩 《电子工程师》2008,34(1):57-59,76
介绍了FFT(快速傅里叶变换)系统中32位高性能浮点乘法器的芯片设计。其中24位定点乘法部分采用两种不同的结构进行对比:经典的阵列式结构和改进Booth编码的树状4:2列压缩结构,后者提高了乘法器的性能。整个设计采用Verilog HDL语言进行RTL(寄存器传输级)描述,并在Quartus Ⅱ平台下完成了FPGA(现场可编程门阵列)仿真验证,然后结合synopsys逻辑综合工具Design Compiler以及TSMC0.18μmCMOS工艺库完成了综合后仿真。最后,将综合后得出的网表送入后端设计工具Apollo进行了自动布局布线。本次设计采用流水线技术,系统时钟频率可达250MHz。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号