首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
一个并行高速乘法器芯片的设计与实现   总被引:12,自引:0,他引:12       下载免费PDF全文
本文介绍了一种并行高速乘法器的设计原理与方法。该乘法器基于一片FPGA芯片实现,应用在通用数字神经处理芯片中,运作良好,工作主频可达30MHZ,达到了预期的目标。同时,这个高速乘法器也可用作DSP数字信号处理器的基本运算单元  相似文献   

2.
高性能数字信号处理器的设计   总被引:1,自引:0,他引:1  
严伟  龚幼民 《微处理机》2004,25(4):10-15
本文完成了16位的数字信号处理器的设计,该数字信号处理器设计了针对信号处理的指令与体系结构,指令数为88条,综合后数字信号处理器的内核单元数为12799。十六位定点数字信号处理器为单发射系统,采用了多数据和地址总线设计,使四级流水在流水线的四个周期保持正常的数据流动,分散的寄存器形式结构,使多数指令在一周期内得到完成。数字信号处理器包含了中央算术逻辑单元、乘法器单元、移位器单元、排序器单元、辅助寄存器单元、中断单元的设计。在中央算术逻辑单元中,完成加/减运算以及逻辑运算,在进位链中采用了选择进位链,对数据溢出采用了饱和处理的方法;在乘法器单元中采用BOOTH算法和先进进位加法器相结合的单元设计;在排序器设计中,按照中断、指令第二指令字、累加器、堆栈等不同的程序排序源设计不同的通路,并按照ZLVC的条件,设计了条件转移指令;在辅助寄存器单元选择一条与正向进位相反方向的进位来实现FFT算法位反序要求;在中断单元中,采用二级中断,大堆栈保存地址,流水“冲刷”技术。  相似文献   

3.
大维度矩阵乘法常采用子矩阵分块法实现,子矩阵的最大规模决定了整个矩阵乘法执行速度。针对经典脉动结构直接处理的矩阵规模受IO带宽限制严重的问题,提出了一种极低IO带宽需求的大维度矩阵链式乘法器结构,并完成了硬件设计实现与性能验证工作。主要工作如下:(1)优化了矩阵乘法的数据组织,实现输入矩阵规模与IO带宽无关,能够最大限度地利用器件内部逻辑和存储资源;(2)根据优化后数据组织形式设计了链式乘法器硬件,实现源数据计算和传输重叠操作;(3)增强乘法器对矩阵规模的适应性,所设计的链式乘法器可实时配置为多条独立链,并行多组运算;(4)在Xilinx C7V2000T FPGA芯片上完成不同种规模的链式乘法器硬件实现和性能测试工作,在该芯片上本文提出的链式乘法器最多支持800个运算单元,是经典脉动结构规模的8倍;在相同运算器个数下,本文提出的链式乘法器只使用经典脉动结构运算1/8的IO带宽即获得相等性能。  相似文献   

4.
本文介绍一种用于高性能DSP的32位浮点乘法器设计,通过采用改进Booth编码的树状4-2压缩器结构,提高了速度,降低了功耗,该乘法器结构规则且适合于VLSI实现,单个周期内完成一次24位整数乘或者32位浮点乘。整个设计采用Verilog HDL语言结构级描述,用0.25um单元库进行逻辑综合.完成一次乘法运算时间为24.30ns.  相似文献   

5.
吴德祥  班恬 《计算机工程》2019,45(12):289-293
近似计算作为一种有效权衡精度与性能的新型计算方式,已被广泛运用于图像处理、数据挖掘和多媒体技术等能够容忍少量计算错误的相关应用中,然而此类应用存在大量乘法操作。为加快数据处理速度,设计一种新型的近似乘法器,采用近似加法实现部分累加运算,从而减少近似乘法器的资源消耗,同时通过流水线结构增加系统的时钟频率,进而提高数据吞吐率。统计结果表明,与精确乘法器相比,该设计可节省32.2%的查找表资源。在图像处理应用中,相较AMA、UDM等近似乘法器,该设计的峰值信噪比较高,图像重构的效果较好。  相似文献   

6.
本文介绍一种用于高性能DSP的32位浮点乘法器设计,通过采用改进Booth编码的树状4-2压缩器结构,提高了速度,降低了功耗,该乘法器结构规则且适合于VLSI实现,单个周期内完成一次24位整数乘或者32位浮点乘。整个设计采用Verilog HDL语言结构级描述,用0.25um单元库进行逻辑综合.完成一次乘法运算时间为24.30ns.  相似文献   

7.
基于FPGA的乘法器实现结构分析与仿真   总被引:1,自引:0,他引:1  
现场可编程门阵列(FPGA)的快速发展为数字信号处理(DSP)系统设计提供了一种新的解决方案,而乘法运算是DSP领域内的一种基本运算,应用极为广泛,对乘法运算基于FPGA的实现结构进行研究具有重要意义。本文分析乘法运算的特点,给出了几种适应FPGA实现的乘法器结构。并在Xilinx公司的ISE 4.1i软件环境下,采用VHDL和VIRELOG硬件描述语言进行了设计实现并对其性能进行了比较分析。  相似文献   

8.
刘强  王荣生 《计算机工程》2005,31(6):200-202
采用了一种改进的基—4 BOOTH编码方案,设计了一种高速32×32-b定/浮点并行乘法器。乘法器电路利用CPL逻辑来实现。通过对关键延时路径中的(4:2)压缩器和64位加法器的优化设计,可以在20ns内完成一次乘法运算。乘法器的设计由0.45um的双层金属CMOS工艺实现,工作电压为3.3V,用于自适应数字滤波运算中。  相似文献   

9.
设计和仿真了一种高线性度CMOS模拟乘法器。采用有源衰减器对输入信号进行预处理,CMOS Gilbert乘法单元对信号进行乘法运算,同时设计了偏置电路。在±1.8 V电源电压下,输入范围为±0.6 V时,通过优化器件参数,乘法器输出幅度小于±25 mV且具有高线性度。乘法器-3 dB带宽为181 MHz,有着良好的倍频特性。此外,对乘法器的温度特性进行了仿真,讨论了线性度与输出幅度之间的关系,优化设计了乘法器版图。在较宽输入范围内,本文乘法器线性度明显高于参考文献。  相似文献   

10.
基于三值逻辑光学处理器实现向量矩阵乘法 *   总被引:4,自引:1,他引:3  
向量矩阵乘法是一种应用广泛的运算,用光学方法实现向量矩阵乘法能够充分发挥光处理的并行优 势,旨在提出一种新的实现向量矩阵乘法的光学方法。受到三值逻辑光学处理器结构的启发,提出用该处理器 实现二进制向量矩阵乘法,这个新方法能够克服传统光学向量矩阵乘法器结构中存在的一些不足。详细说明了 实现的原理和过程,并讨论了这种新方法的优点,最后展望了这种新型的光学处理器的发展前景。  相似文献   

11.
基于跳跃式Wallace树的低功耗32位乘法器   总被引:3,自引:1,他引:2       下载免费PDF全文
李伟  戴紫彬  陈韬 《计算机工程》2008,34(17):229-231
为了提高乘法器的综合性能,从3个方面对乘法器进行了优化设计。采用改进的Booth算法生成各个部分积,利用跳跃式Wallace树结构进行部分积压缩,通过改进的LING加法器对压缩结果进行求和。在FPGA上进行验证与测试,并在0.18 μm SMIC工艺下进行逻辑综合及布局布线。结果表明,与采用传统Wallace树结构的乘法器相比,该乘法器的延时减少了29%,面积减少了17%,功耗降低了38%,能够满足高性能的处理要求。  相似文献   

12.
设计并实现17×17 bit带符号数字乘法器。为了提高乘法器的性能,采用改进的Booth编码算法、Wal-lace树型结构以及基于标准单元库扩展的设计方法。该方法使用逻辑功效模型分析乘法器的关键路径,通过构造驱动能力更为完备的单元以实现关键路径中每一级门功效相等,从而得到最短路径延时。将TSMC 90 nm标准单元库扩展得到扩展单元库,使用两个单元库版图分别实现数字乘法器,基于扩展单元库实现的乘法器速度提升10.87%。实验结果表明,基于标准单元库扩展的半定制设计方法可以有效提升电路的性能,这种方法尤其适用于电路负载过大的情况。  相似文献   

13.
该文基于并行乘法器结构设计了一种新型的低功耗常系数乘法器。它采用了CSD(Canonical sign-digital)编码,W allace Tree乘法算法,结合采用了截断处理,变数校正的优化技术,实现了一种适用于DCT/IDCT变换的常系数乘法器。该乘法器的输入字长为15bits(Q3格式)输出字长为15bits(Q3格式),常系数字长为15bits(Q14格式)。采用SM IC0.18 um工艺进行综合,本设计的面积为13 974滋m 2,并在100M H z的时钟频率下功耗为0.69m w。通过与其它算法实现的乘法器进行分析与比较,说明了该设计在满足性能的同时,实现了较小的面积与较低的功耗。  相似文献   

14.
针对高性能RISC-V处理器乘法运算延迟过长的问题,改进了基本乘法器中的基4-Booth编码以及Wallace树型结构,提出了基于符号补偿的基4-Booth编码以及交替使用3-2压缩器和4-2压缩器的Wallace树型结构。基于符号补偿的基4-Booth编码减少了部分积的数量,降低了符号位进位翻转带来的功耗。改进的Wallace树型结构减少了部分积累加所花费的时钟周期,缩短了乘法器的关键路径,降低了乘法指令的执行延迟。利用VCS仿真验证了改进的乘法器功能正确性,通过板级测试评估了其性能。结果表明,本文的乘法器功能正确,相较于PicoRV32,执行整型乘法指令所花费的时钟周期缩短了88.2%。Dhrystone分数提高了71.7%,功耗降低了4.9%。  相似文献   

15.
针对16位乘法器运算速度慢、硬件逻辑资源消耗大的问题,采用华莱士树压缩结构,通过对二阶布思算法、4-2压缩器和保留进位加法器的优化组合使用及对符号数采用合理的添、补、删策略,实现16位符号数快速乘法器的优化设计。该乘法器采用SMIC 0.18 μm工艺标准数字单元库,使用Synopsys Design Compiler综合实现,在1.8 V, 25℃条件下,芯片最大路径延时为3.16 ns,内核面积为 50 452.75 μm2,功耗为5.17 mW。  相似文献   

16.
This work introduces the method to implement energy efficient designs of arithmetic units such as a ternary full adder, ripple carry adder, single-trit multiplier and multi-trit multiplier using carbon nanotube field effect transistors (CNTFETs). A CNTFET unique feature of the threshold voltage variation by changing the CNT diameter, make it a suitable alternative for being employed in ternary logic designs. In designing the proposed circuits, decoder circuit functionality is realized by various threshold detector circuits tuned to a specific logical threshold voltage value. The multiplier circuit is designed by combing the capacitive logic and the minority function. In order to test the practicability of proposed circuits in cascaded circuits, multi-digit adder and multiplier circuits are constructed. The proposed multi-digit multiplier structure is based on classical Wallace multiplier and includes various optimized versions of adder and multiplier circuits. Extensive simulation has been done to examine the competency of proposed designs under different test conditions. The design of 3-trit multiplier formed by combing the proposed adder and multiplier circuits shows 16 times reduction in power consumption as well as energy consumption in comparison to previous multiplier design.  相似文献   

17.
提出了FFT处理器的蝶形单元和地址发生器优化方案。通过改进Wallace树型加法器阵列结构,提高了蝶形单元乘法器的工作频率。提出了地址快速生成算法,该算法在快速产生地址的同时降低了读取旋转因子ROM的功耗。在Xilinx的Vertex-II系列FPGA上实现,该处理器可以稳定工作在150 MHz时钟下,速度满足设计指标。  相似文献   

18.
本文讨论了一种可在FPGA上实现的FFT结构。该结构采用基于流水线结构和快速并行乘法器的蝶形处理器。乘法器采用改进的Booth算法,简化了部分积符号扩展,使用Wallace树结构和4-2压缩器对部分积归约。以8点复点FFT为实例设计相应的控制电路。使用VHDL语言完成设计,并综合到FPGA中。从综合的结果看该结构可在XC4025E-2上以52MHz的时钟高速运行。在此基础上易于扩展为大点数FFT运算结构。  相似文献   

19.
研究了利用FPGA实现浮点FFT的技术,提出了一种循环控制、RAM访问和蝶形运算三大模块以流水线方式协同工作的方案,结合数据缓冲和并行处理技术,讨论了蝶形运算单元的工作机制。浮点乘法器采用并行Booth编码和3级Wallace压缩树的结构,浮点加法器中采用独立的定点加法器和减法器,使运算得以高速进行。RAM读/写时序和运算参数都可利用寄存器设置。本设计已在Cyclone-Ⅱ系列芯片EP2C8Q208中实现,200MHz主频下,采用外部RAM,完成1024点复数FFT只需750μs。  相似文献   

20.
提出了一种基于四叉树结构的高速乘法器自动综合优化算法以提升乘法器运算速度。首先对延时较大的高位积采用四叉树递归直接构建,取代传统部分积进位链,缩短关键路径时延,进而进行分支折合和合并,相邻乘法结果共享部分四叉树,降低硬件开销。算法同时支持不同面积约束下的自动综合。依此算法的乘法器相比基于Booth算法和Wallace树的乘法器速度提高了10%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号