共查询到20条相似文献,搜索用时 125 毫秒
1.
2.
本文通过应用Booth编码技术和多比特移位技术,有效地改进了有限域模乘模除算法,不仅使素域模乘的运算速度提高了一倍,而且使素域模除运算所需的迭代次数减小了40%.在算法改良的基础上,本文提出一种可配置的有限域模乘模除器结构,实现了模乘与模除运算,及素域与多项式域算术的硬件复用,大幅度地降低了硬件成本.另外,本文提出的硬件结构使用以字为单位的运算单元,采用流水线结构,具有良好的扩展性.因此,本文的模乘模除器具有灵活性、安全性和低成本的综合优势,可以广泛应用于各种高性能、低成本的便携移动设备,为各种无线终端设备用户提供高性能的信息安全服务. 相似文献
3.
4.
5.
总结归纳了有限域层模乘、模加减、模除运算在算法级和硬件结构级的特点及兼容性。通过对大量主流有限域算法的对比、算法优化、流水加速设计及结构兼容扩展,提出了一种提升模运算结构兼容的模乘优化算法:改进的radix-4交错模乘算法。该算法关键路径短、结构简单,在兼容设计方面有优势,并能实现全流水加速运算,运算效率高,达到高速可重构的设计目的。不同于传统的结构,本文在此模乘基础上直接适配plus-minus模除和模加减,有效解决了资源浪费的问题。该统一模单元在65 nm CMOS工艺下进行综合,面积为0.22 mm~2,时钟频率为526 MHz。完成一次576 bit的模乘、模除运算分别用时0.55μs和2.98μs。 相似文献
6.
7.
GF(2~m)上椭圆曲线密码体制的硬件实现 总被引:2,自引:0,他引:2
特征为2的有限域GF(2m)较适合椭圆曲线密码算法的硬件实现。该文通过对GF(2m)上模运算的分析,将所有的模运算转化成模乘和模加,并对LSD乘法器的进行了改进,所设计的运算单元能进行GF(2m)上所有的模运算,利用该运算单元所实现的椭圆曲线密码算法具有面积小,速度快的优点,适合用于处理能力和存储空间受限的设备中。 相似文献
8.
9.
模乘运算是公钥密码算法中的关键运算,本文基于全字运算的Montgomery模乘算法,设计了具有可伸缩硬件结构的模乘器。该模乘器可以基于固定的数据路径宽度对任意长度的数据进行运算,并且能够支持两个有限域上的运算。最后用Verilog硬件描述语言对该乘法器的硬件结构进行代码设计,并用Synopsys公司的Design Complier在Artisan SIMC 0.18μm typical工艺库下综合。实验结果表明,相对于其他模乘器设计,本文设计具有较高的时钟频率,并且由于大大减少了运算所需的时钟周期数,模乘运算速度较快。 相似文献
10.
基于FIOS类型的Montgomery双域模乘器设计 总被引:4,自引:1,他引:3
针对FIOS类型的Montgomery模乘扩展算法的比特级-字级和字级-字级的两种实现形式进行研究,设计多处理单元的流水线组织结构实现算法,并对模乘器进行双有限域统一结构设计,使之能够同时支持两个有限域GF(p)和GF(2n)上的运算。最后对设计的两种模乘器用Verilog硬件描述语言进行代码描述,采用Synopsys公司的Design Compiler在Artisan SIMC 0.18μm typical工艺库下综合。实验结果表明,该模乘器不仅在运算速度和电路面积方面各具有优势,而且具有运算长度可变的灵活性。 相似文献
11.
本文基于提高并行性、加速模乘的思想,利用分割操作数的方法,提出了分割式Montgomery模乘算法(PMMM),并且基于C.D.Walter发明的心动阵列结构,提出了新的线性高基心动阵列模乘结构,较好地实现了PMMM。对于基r(r=2^w)的n位模乘运算,Walter使用(n+1)(n+2)个PF来实现Montgomery模乘,我们用n+2个PE实现Montgomery模乘,最大并行性为Walter的2倍。将此结构应用于模幂运算,仅需一次预计算便可使得非平方模乘的输入输出延迟为walter中的1/2,且平方模乘延迟与其相当,从而提高了模幂的运算速度。当然,考虑到对速度和硬件资源的不同需求,我们也给出了使用n/2+1个PE来计算模乘、模幂的实现算法,并做出了相应的数据分析。 相似文献
12.
当前RSA密码算法无法实现RSA加解密阶段大数模乘运算,因此提出基于余数系统蒙哥马利模乘器的RSA密码算法。依据余数系统模计算性能优势,构建二进制数值表示形式与运算法则表达式。采用Xilinx Virtex-Ⅱ平台与双模式乘法器,创建余数系统蒙哥马利模乘器硬件部分,通过四状态调度控制器控制模乘器。基于模乘器算术逻辑单元,完成算法中的乘法与乘累加运算。根据蒙哥马利模乘去除取模阶段的除法运算形式,运用模乘因子界定基转换算法,并采取一种近似方法将除法运算替换为移位操作,依据数据依赖关系对算法性能与芯片面进行折中处理,通过改变特殊基完成RSA密码算法构建。仿真结果表明,研究算法素数采集速率与加密速率高,算法执行时间短,加密效果更好。 相似文献
13.
为了加速公钥密码系统的实现速度,设计支持大教模乘和模加减运算的模运算单元是关键.目前的方法多关注于这两种运算的分别实现,为了改善这种方式导致的硬件单元吞吐量低的问题,提出了一种流水线结构的高性能大数模运算单元.基于改进的Montgomery模乘算法,采用流水线技术,把模乘电路分成3个流水线阶段,并把模加减电路结合到第3阶段,得到一种能同时计算模乘和模加减的模运算单元.仿真结果显示,模运算单元以较少的资源占用率获得了较高的吞吐量,非常适合做高性能的公钥密码系统的基本硬件运算单元. 相似文献
14.
一种高效率的RSA模幂算法的研究 总被引:6,自引:2,他引:4
RSA硬件的执行效率主要取决于模幂运算的实现效率。该文旨在介绍一种引入中国剩余定理加速私钥操作,并采用Barret模缩减方法,避开除法运算,将模幂运算转换成三个乘法运算和一个加法运算的快速模幂算法及其硬件实现方法。在乘法运算的实现中,采用Booth乘法器,可以大大缩短电路的关键路径,显著地提高硬件的执行效率。 相似文献
15.
为了提高椭圆曲线密码处理器的模乘速度,本文提出了一种更有效且更适合硬件实现的Montgomery算法。改进的算法分析了基于CSA加法器的Montgomery模乘算法,提出了多步CSA加法器的Montgomery算法,该算法能够在一个时钟内做多次CSA迭代运算,可以有效地降低时钟个数,进而提高模乘速度。通过Modelsim仿真工具仿真,正确完成一次256bits Montgomery模乘运算只需要16个时钟周期。在Altera EP3SL200F1517C2 FPGA中的运行结果表明:71.5MHz的时钟频率下,完成一次256位的模乘运算仅需要0.22微秒。 相似文献
16.
RSA高速模乘单元的设计 总被引:1,自引:0,他引:1
论文分析了Montgomery算法,利用迭代加法之间的并行性提出了一种流水并行工作的硬件模乘结构。该结构具有时钟频率高,模幂运算时间短的优点,适合于RSA的模幂运算,可以极大提高RSA加密运算的效率,同时其体系结构适合于高阶Montgomery算法的实现。FPGA实现的结果表明,512位的高速模乘单元工作频率74.27MHZ;1024位的高速模乘单元工作频率73.94MHZ。模乘单元的面积与位宽成正比,而工作频率基本不变。基于此结构,512位的RSA运算时间为1.78ms,1024位的RSA运算时间为7.08ms。 相似文献
17.
18.
文章提出了一种基于Montgomery算法的模幂乘硬件流水线实现算法,该算法的核心是把模N乘上一个系数,使倍增后的模之低若干位(二进制)全为1,然后用倍增后的模进行Montgomery算法模幂乘运算。采用该算法,可以设计出用于实现RSA的高频流水线运算部件。 相似文献
19.
20.
《Journal of Systems Architecture》2007,53(2-3):117-126
This paper presents a new scalable hardware implementing modular multiplication. A high radix Montgomery multiplication algorithm without final subtraction is used to perform this operation. An alternative proof for the final Montgomery multiplication by 1, removing the condition on the modulus, is given. This hardware fits in any chip area and is able to work with any size of modulus. Unlike other scalable designs only one cell is used. This cell contains standard and well optimized digit multiplier and adder. Time–area trade-offs are also available before hardware synthesis for differents sizes of internal data path. The pipeline architecture of the multiplier component increases the clock frequency and the throughput. Time–area trade-offs are analyzed in order to make the best choice for given time and area constraints. This architecture seems to provide a better time–area compromise than previous scalable hardware. 相似文献