期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘磊严晓浪孟建熠葛海通《计算机应用研究》2010,27(10):3727-3730

提出了一种基于四叉树结构的高速乘法器自动综合优化算法以提升乘法器运算速度。首先对延时较大的高位积采用四叉树递归直接构建,取代传统部分积进位链,缩短关键路径时延,进而进行分支折合和合并,相邻乘法结果共享部分四叉树,降低硬件开销。算法同时支持不同面积约束下的自动综合。依此算法的乘法器相比基于Booth算法和Wallace树的乘法器速度提高了10%。相似文献

2.

基于互补电阻开关的忆阻乘法器设计

李志刚陈辉刘鹏武继刚《计算机工程》2023,49(1):201-209

现有的忆阻算术逻辑多采用单个忆阻器作为存储单元,在忆阻交叉阵列中易受到漏电流以及设计逻辑电路时逻辑综合复杂度高的影响,导致当前乘法器设计中串行化加法操作的延时和面积开销增加。互补电阻开关具有可重构逻辑电路的运算速度和抑制忆阻交叉阵列中漏电流的性能,是实现忆阻算术逻辑的关键器件。提出一种弱进位依赖的忆阻乘法器。为提升忆阻器的逻辑性能,基于互补电阻开关电路结构,设计两种加法器的优化方案,简化操作步骤。在此基础上,通过改进传统的乘法实现方式,并对进位数据进行拆解,降低运算过程中进位数据之间的依赖性,实现并行化的加法运算。将设计的乘法器映射到混合CMOS/crossbar结构中,乘法计算性能得到大幅提高。在Spice仿真环境下验证所提乘法器的可行性。仿真实验结果表明,与现有的乘法器相比,所提乘法器的延时开销从O(n²)降低为线性级别,同时面积开销降低约70%。相似文献

3.

基于通信链路的NoC映射算法

《电子技术应用》2016,(8):121-124

片上网络映射算法对系统通信能耗、延时等性能具有重大影响。基于通信链路通信量大小,提出一种改进的多目标遗传映射算法,以降低系统能耗和延时。算法中提出根据通信链路通信量大小决定任务在网络拓扑中映射位置的方式来产生初始染色体,并通过改进的变异操作产生新的子代,有效降低了算法复杂度,加快了算法的收敛速度。实验通过NIRGAM仿真平台进行,结果表明,与传统的多目标遗传算法相比,在实际应用DVOPD中,能耗降低了49.76%,通信延时降低了53.23%;在VOPD实验中,能耗和延时分别降低了29.54%和32.45%;而MPEG-4的能耗和延时则分别降低了45.72%和49.40%。同样,提出的算法与模拟退火算法相比,能耗和延时性能也有明显提高。相似文献

4.

基于改进的Booth编码和Wallace树的乘法器优化设计

《计算机应用与软件》2016,(5)

针对当前乘法器设计难于兼顾路径延时和版图面积的问题,设计一种新型的32位有符号数乘法器结构。其特点是:采用改进的Booth编码,生成排列规则的部分积阵列,所产生的电路相比于传统的方法减小了延时与面积;采用由改进的4-2压缩器和3-2压缩器相结合的新型Wallace树压缩结构,将17个部分积压缩为2个部分积只需经过10级异或门延时,有效地提高了乘法运算的速度。设计使用FPGA开发板进行测试,并采用基于SMIC 0.18μm的标准单元工艺进行综合,综合结果显示芯片面积为0.1127 mm~2,关键路径延时为3.4 ns。实验结果表明,改进后的乘法器既减少了关键路径延时,又缩小了版图面积。相似文献

5.

基于改进KOA方法的模2域多项式乘法器的实现

下载免费PDF全文

黄小苑白国强何良生《计算机工程与科学》2007,29(3):70-73

有限域上的多项式乘法器是实现ECC底层运算的关键模块。本文基于Karatsuba-Offman提出的分治思想来简化两个多精度操作数的模乘。通过反复调用一个乘法器进行模乘并将结果逐次累加,减少了单精度操作数乘法的次数,从而降低了运算的复杂度。实验结果显示,这种方法在增加一定路径延时的代价下获得更小的芯片面积和功耗。设计原型改进后适用于无线局域网等要求低功耗、小面积的安全设备中。相似文献

6.

基于符号补偿的RISC-V处理器乘法器优化

下载免费PDF全文

高嘉轩刘鸿瑾施博张绍林华更新《计算机测量与控制》2023,31(7):258-264

针对高性能RISC-V处理器乘法运算延迟过长的问题,改进了基本乘法器中的基4-Booth编码以及Wallace树型结构,提出了基于符号补偿的基4-Booth编码以及交替使用3-2压缩器和4-2压缩器的Wallace树型结构。基于符号补偿的基4-Booth编码减少了部分积的数量,降低了符号位进位翻转带来的功耗。改进的Wallace树型结构减少了部分积累加所花费的时钟周期,缩短了乘法器的关键路径,降低了乘法指令的执行延迟。利用VCS仿真验证了改进的乘法器功能正确性,通过板级测试评估了其性能。结果表明,本文的乘法器功能正确,相较于PicoRV32,执行整型乘法指令所花费的时钟周期缩短了88.2%。Dhrystone分数提高了71.7%,功耗降低了4.9%。相似文献

7.

面向高能效加速器的二值化神经网络设计和训练方法

李佳骏许浩博王郁杰肖航王颖韩银和李晓维《计算机辅助设计与图形学学报》2023,(6):961-969

针对二值化神经网络加速器计算溢出和乘法器依赖的问题,提出一套二值化神经网络设计及其训练方法.首先设计能够模拟溢出的矩阵乘法,保证模型部署后不丢失准确率;然后优化卷积层和激活函数,缓解溢出总量;再设计移位批标准化层,使二值化神经网络摆脱对乘法运算的依赖,并有效地降低访存;最后针对改进的模型提出基于溢出启发的协同训练框架,确保模型训练能够收敛.实验结果表明,与10个主流的关键词激活方法相比,在准确率无明显损失的情况下,所提方法使片上计算规模减少超过49.1%,并为加速器带来至少21.0%的速度提升. 相似文献

8.

一种快速的浮点乘法器结构 总被引：2，自引：0，他引：2

周旭唐志敏《计算机研究与发展》2003,40(6):879-883

一种支持IEEE754浮点标准的全流水结构的浮点乘法器被提出．在该浮点乘法器中，提出一种新型的双路浮点乘法结构．这种结构相比于全规模乘法器，在不增加面积的前提下，缩短乘法树关键路径延迟13．6％，提高了乘法器的执行频率．这种乘法器有3个周期的延迟，每个周期能接收一条单精度或双精度浮点乘法指令．使用FPGA进行验证，并使用标准单元实现．采用0．18μm的静态CMOS工艺，执行频率为384MHz，面积为732902．25μm^2．在相同工艺条件下，将这种结构与其他乘法器结构进行比较，结果表明这种结构是有效的．相似文献

9.

GF(2m)上椭圆曲线标量乘的硬件结构实现

邬贵明郑方谢向辉吴东严忻恺《计算机科学》2015,42(1):79-81,89

基于Reyhani Masoleh提出的GF(2m)高斯正规基乘法实现了三拍非流水的正规基乘法器,并基于该乘法器实现了一种高性能López-Dahab标量乘硬件结构.Reyhani-Masoleh算法利用乘法矩阵的对称性降低了乘法的复杂度;而López-Dahab标量乘算法由于采用投影坐标,计算速度快且可以有效降低存储需求.基于Reyhani-Masoleh乘法器的López-Dahab标量乘结构可以有效利用两种算法的优势,可以达到目前最好的标量乘硬件结构的性能. 相似文献

10.

基于改进的BOOTH编码的高速32×32位并行乘法器设计

刘强王荣生《计算机工程》2005,31(6):200-202

采用了一种改进的基—4 BOOTH编码方案,设计了一种高速32×32-b定/浮点并行乘法器。乘法器电路利用CPL逻辑来实现。通过对关键延时路径中的(4:2)压缩器和64位加法器的优化设计,可以在20ns内完成一次乘法运算。乘法器的设计由0.45um的双层金属CMOS工艺实现,工作电压为3.3V,用于自适应数字滤波运算中。相似文献

11.

基于RS码的可重构有限域乘法器的设计与实现

谭思炜潘红兵《计算机应用与软件》2011,28(8)

为了提高伽罗华有限域乘法器的通用性,降低实现的复杂度,采用自然基算法,用简单的逻辑门电路实现乘法运算过程。提出可重构的迭代计算结构,能满足域长m为3～8的乘法器,并用FPGA实现。结果表明,可重构有限域乘法器能够满足多种标准RS码的乘法运算的需要。相似文献

12.

基于循环神经网络的语音增强加速器设计

郎　标　　陈　霏　　马　偲石东宇姬俊宇《传感技术学报》2023,36(4):555-564

使用深度学习的语音增强技术能够提升听者的言语识别率,但因神经网络的规模较大难以应用于边缘设备中。因此,本文提出了一种可用于助听器等边缘设备的循环神经网络语音增强加速器。该加速器将神经网络的计算用独立矩阵乘法硬件实现,并在多层神经网络的层之间实现硬件级的流水操作,通过并行和流水降低了计算延时。实验表明,与带噪语音相比,在volvo、factory2、babble噪声环境下,本算法的信噪比分别平均提升了17.302dB、8.412dB、4.732dB;短时语音可懂度分别平均提高了1.4%、0.8%和0.4%;语音质量感知评估平均提高了1.498、0.504和0.234;这三项指标均高于本文所对比的传统语音增强算法与神经网络算法。当时钟频率为10 MHz时,加速器的处理延时为9.2 ms,可以满足边缘侧应用的实时性需求。相似文献

13.

神经网络计算部件的数字VLSI优化设计

李昂吴巍钱艺王沁《计算机工程》2008,34(5):254-256

在神经网络的数字VLSI实现中，激活函数及乘累加等计算部件是设计中的难点。区别于使用乘法器及加法器的传统方法，该文提出的LMN方法基于查找表(即函数真值表)，使用逻辑最小项化简提炼出函数最简逻辑表达式后，可直接生成结构规整的门级电路，除线延时外，电路只有数个门级延时。以非线性函数为例对该方法进行了介绍，结果表明当定点数位数较少时，算法在速度及误差方面具有更好的性能。相似文献

14.

一种用于SOC中快速乘法器的设计

李六杏周国祥《微计算机信息》2007,23(11):155-156

本文设计了适用于SOC(System On Chip)的快速乘法器内核。通过增加一位符号位,可以支持24×24无符号和有符号乘法。在乘法器的设计中,采用了改进的Booth算法来减少部分积的数目,用压缩的Wallace Tree结构将产生的部分积相加以减少关键路径的延时。该电路通过Hspice仿真最大延迟达到9.32ns,从而获得较高的速度和性能。相似文献

15.

基于跳跃式Wallace树的低功耗32位乘法器 总被引：3，自引：1，他引：2

下载免费PDF全文

李伟戴紫彬陈韬《计算机工程》2008,34(17):229-231

为了提高乘法器的综合性能,从3个方面对乘法器进行了优化设计。采用改进的Booth算法生成各个部分积,利用跳跃式Wallace树结构进行部分积压缩,通过改进的LING加法器对压缩结果进行求和。在FPGA上进行验证与测试,并在0.18 μm SMIC工艺下进行逻辑综合及布局布线。结果表明,与采用传统Wallace树结构的乘法器相比,该乘法器的延时减少了29%,面积减少了17%,功耗降低了38%,能够满足高性能的处理要求。相似文献

16.

一种基于复合域的ECC的快速乘法器

鲁俊生张文祥王新辉《计算机工程与应用》2003,39(20):59-61

基于有限域上椭圆曲线公开密匙协议的离散对数计算算法正日益成为热点,而有限域上的计算尤其是乘法计算极大地影响其加/解密速度。基于ECC中有限域乘法的重要性,该文给出了一种复合域GF((2m1)m2)上的快速乘法器。该乘法器采用并行计算和串行计算相结合的原则,增加少量硬件规模将一次有限域乘法的计算速度由原来的m=m2m1个时钟周期降低到m2个时钟周期,从而极大地提高了乘法器的计算速度。相似文献

17.

浮点乘法器中的舍入方法研究 总被引：1，自引：0，他引：1

刘鸿瑾张铁军侯朝焕《计算机工程与应用》2006,42(27):20-22,95

文章针对浮点乘法器中的尾数舍入方法进行了研究,提出了一种基于预测和选择的快速舍入方法。相对于传统的舍入方法,这种方法通过预测和选择来实现快速舍入,舍入过程相对简单,减小了实现时的硬件开销和关键路径延时,明显地提高了浮点乘法器的性能,并且精度越高,性能提高的空间越大。相似文献

18.

基于数组分块的FPGA高级综合编译优化算法

张茉莉杨海钢崔秀海李园强《计算机应用研究》2013,30(11):3349-3352

针对FPGA高级综合中提高矩阵存储并行的问题, 提出了一种基于数组分块的编译优化算法, 用来优化以矩阵乘法为代表的矩阵应用。算法在LLVM编译器架构下对访存密集的数组进行分块, 然后对迭代空间进行对应的合并, 最后修改迭代空间与数据空间之间的数据访问。与AutoESL循环展开算法的实验对比表明, 在分块数目最优的情况下, 矩阵乘法电路的延时平均被降低46%, 资源平均被降低39%。因而该基于数组分块的高级综合编译优化算法能有效降低电路延时和资源使用量。相似文献

19.

适合资源受限环境的GF(2m)域上乘法器结构

谭丽娟陈运《计算机工程与应用》2005,41(12):79-81

椭圆曲线密码体制因其每比特最大的安全性受到越来越广泛的重视。而有限域上的乘法运算,成为决定椭圆曲线上的标量乘法运算速度的主要因素。文中基于Massey-Omura乘法器,和另外一种并行乘法器,提出了一种新型的有反馈的并行乘法器结构,结构需要8(m-1)个异或门和(8m-7)个与门。比起原来的乘法器,门数有了很大的减少。因此这种结构比较适合资源受限的环境中应用。相似文献

20.

一种基于有限域的快速乘法器的设计与实现 总被引：1，自引：0，他引：1

鲁俊生张文祥王新辉《计算机研究与发展》2004,41(4):755-760

基于有限域上椭圆曲线公开密匙协议的离散对数计算算法正日益成为热点，而有限域上的计算尤其是乘法计算极大地影响其加／解密速度。为了提高椭圆曲线密码系统的计算速度，需要从很多方面考虑，但其中关键的一点在于如何提高乘法器的速度，且保持其规模在能够接受的范围。在对椭圆曲线的分析基础上提出了一种有限复合域GF((2^m1)^m2)上的快速乘法器。该乘法器采用并行计算和串行计算相结合的原则，在增加少量硬件规模将一次有限域乘法的计算速度由原来的m=m2m1个时钟周期降低到m2个时钟周期，从而极大地提高了乘法器的计算速度。通过FPGA的验证测试证明该方法在速度上完全适合椭圆曲线密码系统。相似文献