首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 158 毫秒
1.
本文介绍一种用于高性能DSP的32位浮点乘法器设计,通过采用改进Booth编码的树状4-2压缩器结构,提高了速度,降低了功耗,该乘法器结构规则且适合于VLSI实现,单个周期内完成一次24位整数乘或者32位浮点乘。整个设计采用Verilog HDL语言结构级描述,用0.25um单元库进行逻辑综合.完成一次乘法运算时间为24.30ns.  相似文献   

2.
基于FPGA的高速流水线浮点乘法器设计   总被引:1,自引:0,他引:1  
设计了一种支持IEEE754浮点标准的32位高速流水线结构浮点乘法器.该乘法器采用新型的基4布思算法,改进的4:2压缩结构和部分积求和电路,完成Carry Save形式的部分积压缩,再由Catry Look-ahead加法器求得乘积.时序仿真结果表明该乘法器可稳定运行在80M的频率上,并已成功运用在浮点FFT处理器中.  相似文献   

3.
为了实现不同数制的乘法共享硬件资源,提出了一种可以实现基于IEEE754标准的64位双精度浮点与32位单精度浮点、32位整数和16位定点的多功能阵列乘法器的设计方法。采用超前进位加法和流水线技术实现乘法器性能的提高。设计了与TMS320C6701乘法指令兼容的乘法单元,仿真结果验证了设计方案的正确性。  相似文献   

4.
刘强  王荣生 《计算机工程》2005,31(6):200-202
采用了一种改进的基—4 BOOTH编码方案,设计了一种高速32×32-b定/浮点并行乘法器。乘法器电路利用CPL逻辑来实现。通过对关键延时路径中的(4:2)压缩器和64位加法器的优化设计,可以在20ns内完成一次乘法运算。乘法器的设计由0.45um的双层金属CMOS工艺实现,工作电压为3.3V,用于自适应数字滤波运算中。  相似文献   

5.
何军  黄永勤  朱英 《计算机科学》2013,40(12):15-18,51
如何减少四倍精度浮点运算的硬件开销和延迟是需要解决的重要问题。为减少四倍精度乘加器的硬件开销,基于支持64位×4的双精度浮点SIMD FMA部件,设计并实现了一种新的四倍精度浮点乘加器(QPFMA),来支持4种浮点乘加运算和乘法、加减法、比较运算,运算延迟为7拍。通过将四倍精度113位×113位尾数乘法器分解为4个57位×57位乘法器来共享双精度浮点SIMD FMA部件的53位×53位乘法器,显著减少了实现QPFMA的硬件开销。基于65nm工艺的逻辑综合结果表明,该QPFMA频率可达1.1GHz,面积是常规QPFMA设计的42.71%,仅与一个双精度浮点乘加器相当。与现有的QPFMA设计相比,相当工艺和频率下,其运算延迟减少了3拍,门数减少了65.96%。  相似文献   

6.
针对目前浮点运算单元在处理向量点乘运算时存在数据相关性的问题,提出一种低延迟单周期的累加单元结构.该结构用于7级流水的可配置乘累加单元,可兼容双精度浮点、双单精度浮点以及32位有符号数,且能对后置模块进行操作数隔离与门控时钟的低功耗处理.在Viterx-4平台上实验结果表明,该结构具有高性能、低延迟、单周期完成数据吞吐等特点,与使用Xilinx浮点IP的设计面积相比,时间积减少30%以上.  相似文献   

7.
彭元喜  杨洪杰  谢刚 《计算机应用》2010,30(11):3121-3125
为了满足高性能X-DSP浮点乘法器的性能、功耗、面积要求,研究分析了X型DSP总体结构和浮点乘法器指令特点,采用Booth 2编码算法和4∶2压缩树形结构,使用4级流水线结构设计实现了一款高性能低功耗浮点乘法器。使用逻辑综合工具Design Compiler,采用第三方公司0.13μm CMOS工艺库,对所设计的乘法器进行了综合,其结果为工作频率500MHz,面积67529.36μm2,功耗22.3424mW。  相似文献   

8.
设计了一种用于32位浮点乘法器尾数乘部分的wallace树压缩器的硬件结构实现方法,通过3-2和4-2压缩的混合搭配,构成一种新的wallace树压缩器,采用verilog硬件描述语言实现RTL级代码的编写,并使用VCS进行功能仿真,然后在SMIC0.13 μm的工艺下,用synopsys DC进行逻辑综合、优化。结果表明,这种压缩器在部分积的压缩过程中,有效地提高了运算速度,并在很大程度上减小了硬件实现面积。  相似文献   

9.
针对当前采用ARMv4指令集的嵌入式微处理器使用冯·诺依曼结构,数据和指令共用一条总线导致数据吞吐量降低的问题,设计了一款新架构微处理器。首先,采用哈佛结构独立的数据总线和指令总线,数据带宽提升一倍;其次,采用单周期32位乘法器,其计算速度是目前嵌入式乘法器计算速度的2倍;此外,利用资源共享,一个乘加器完成6种不同乘法和乘加指令,一个逻辑左移寄存器完成逻辑左移、逻辑右移、算术右移、循环右移4种功能。整个工程在Altera EP4CE30 FPGA芯片上进行物理验证。实验结果表明,通过改进,设计的嵌入式微处理器性能有所提升。  相似文献   

10.
高效结构的多输入浮点乘法器在FPGA上的实现   总被引:1,自引:0,他引:1  
传统的多输入浮点乘法运算是通过级联二输入浮点乘法器来实现的,这种结构不可避免地使运算时延和所需逻辑资源成倍增加,从而难以满足高速数字信号处理的需求。本文提出了一种适合于在FPGA上实现的浮点数据格式和可以在三级流水线内完成的一种高效的多输入浮点乘法器结构,并给出了在Xilinx公司Virtex系列芯片上的测试数据。  相似文献   

11.
一种128位高精度浮点乘加部件的研究与实现   总被引:2,自引:0,他引:2  
高性能高精度的浮点数值处理一直是科学计算追求的目标。为此,本文研究并实现了一种128位浮点乘加融合计算单元。在乘法模块中,使用分块乘法,复用57位乘法模块,减小了数据宽度。采用三输入前导1预期技术,简化了预编码,缩短了预测电路的延时并减小面积。该模块单元使用Verilog语言实现,用Design Compiler进行逻辑综合,在simc0.13μm工艺下频率达202MHz,关键路径延时为4.93μs,面积约为191000门。  相似文献   

12.
SIMD单元集成已经成为提高处理器性能的重要途径之一。虽然定点SIMD单元的硬件复用低成本设计技术已经较为成熟,但是,大部分浮点SIMD单元的硬件设计还停留在简单的硬件复制方法上。本文针对日益增长的128位高精度浮点操作的计算需求,提出了其相应的SIMD低成本硬件结构方案。综合实验结果表明,所提出的SIMD浮点乘加单元比传统128位高精度浮点乘加单元具有更加优化的性能与面积参数。  相似文献   

13.
描述了一个流水线运行的、符合IEEE 75 4单精度浮点标准的加法器的全定制设计。该浮点加法器的设计基于SMIC 1 .8V 0 .1 8μm 1p6mCMOS工艺 ,将应用于高性能 32位CPU的浮点运算单元中。该设计在研究快速实现算法结构的基础上 ,采用全定制的电路及版图设计方法 ,提高了浮点加法器的工作速度 ,降低了芯片功耗 ,并通过减少芯片面积 ,有效降低芯片量产时的成本  相似文献   

14.
Papamichalis  P. Simar  R.  Jr. 《Micro, IEEE》1988,8(6):13-29
The 320C30 is a fast processor with a large memory space and floating-point-arithmetic capabilities. The authors describe the 320C30 architecture in detail, discussing both the internal organization of the device and the external interfaces. They also explain the pipeline structure, addressing software-related issues and constructs, and examine the development tools and support. Finally, they present examples of applications. Some of the major features of the 320C30 are: a 60-ns cycle time that results in execution of over 16 million instructions per second (MIPS) and over 33 million floating-point operations per second (Mflops); 32-bit data buses and 24-bit address buses for a 16M-word overall memory space; dual-access, 4 K×32-bit on-chip ROM and 2 K×32-bit on-chip RAM; a 64×32-bit program cache; a 32-bit integer/40-bit floating-point multiplier and ALU; eight extended-precision registers, eight auxiliary registers, and 23 control and status registers; generally single-cycle instructions; integer, floating-point, and logical operation; two- and three-operand instructions; an on-chip DMA controller; and fabrication in 1-μm CMOS technology and packaging in a 180-pin package. These facilitate FIR (finite impulse response) and IIR (infinite impulse response) filtering, telecommunications and speech applications, and graphics and image processing applications  相似文献   

15.
基于FPGA的32位并行乘法器的设计与实现   总被引:1,自引:0,他引:1  
蒋勇  罗玉平  马晏  叶新 《计算机工程》2005,31(23):222-224
首先分析比较了几种典型的乘法器实现结构,然后采用树型组合方式,对其结构进行了优化,最后在FPGA上设计并实现了一个高性能的32位并行乘法器。  相似文献   

16.
A mixed precision implementation of two-electron integrals is demonstrated to have two benefits: (a) computations can be performed reliably in 32-bit precision on architectures for which 32-bit precision is significantly faster than 64-bit precision (e.g. graphical processing units), and (b) numerical results that match those using higher than 64-bit precision can be recovered without a significant penalty associated with performing the entire computation in higher precision. A justification is presented for using mixed precision in the Rys two-electron integral quadrature algorithm, together with timings and numerical results using a variety of floating-point types. The code discussed here presents a systematic way to control the accuracy of the Rys algorithm, regardless of the types and numbers of integrals.  相似文献   

17.
董冕  吴丹  饶金理  黄威  戴葵  邹雪城 《计算机工程》2012,38(16):249-252
通过硬件共享的方式实现一套高性能子字并行运算单元,运算单元采用流水线设计,可以一个周期进行1个64-bit、2个32-bit、4个16-bit或8个8-bit定点运算,1个双精度或2个单精度浮点运算。运算单元采用Verilog HDL设计,在0.18 μm 标准CMOS工艺库下实现,并针对实际多媒体应用程序基于ESCA系统进行性能评测。实验结果表明,该运算单元可以在硬件开销和性能上获得较好的平衡。  相似文献   

18.
提出了一种32位嵌入式系统中应用的扩展精度数学算法。适用于缺乏数字协处理器硬件支持并且软件浮点运算达不到系统时间要求的系统。算法运算数据精度高、扩展性好。介绍了32位乘法、除法、开方算法以及64位加法、减法、乘法算法。  相似文献   

19.
In this work, a reversible single precision floating-point square root is proposed using modified non-restoring algorithm. To our knowledge, this is the first work proposed for floating-point square root using reversible logic. The main block involved in the implementation of reversible square root using modified non-restoring technique is Reversible Controlled-Subtract-Multiplex. Further, optimized Reversible Controlled-Subtract-Multiplex blocks are introduced in order to minimize the number of reversible gates used, number of constant inputs used, number of garbage outputs produced as well as the quantum cost. The proposed reversible single precision floating-point square root is realized using an 8-bit reversible adder, an 8-bit and a 25-bit reversible shift register, 12-bit reversible unsigned square root, 6-bit reversible unsigned square root, 4-bit reversible unsigned square root, 3-bit reversible unsigned square root and ten 1-bit reversible unsigned square root units.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号