期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

邵磊李昆张树丹于宗光徐睿《微计算机信息》2007,23(3X):224-225,199

本文介绍一种用于高性能DSP的32位浮点乘法器设计,通过采用改进Booth编码的树状4-2压缩器结构,提高了速度,降低了功耗,该乘法器结构规则且适合于VLSI实现,单个周期内完成一次24位整数乘或者32位浮点乘。整个设计采用Verilog HDL语言结构级描述,用0.25um单元库进行逻辑综合.完成一次乘法运算时间为24.30ns. 相似文献

2.

基于FPGA的高速流水线浮点乘法器设计 总被引：1，自引：0，他引：1

张海南龚仁喜刘丰江波《微计算机信息》2009,25(5)

设计了一种支持IEEE754浮点标准的32位高速流水线结构浮点乘法器.该乘法器采用新型的基4布思算法,改进的4:2压缩结构和部分积求和电路,完成Carry Save形式的部分积压缩,再由Catry Look-ahead加法器求得乘积.时序仿真结果表明该乘法器可稳定运行在80M的频率上,并已成功运用在浮点FFT处理器中. 相似文献

3.

一种多功能阵列乘法器的设计方法

下载免费PDF全文

胡正伟仲顺安《计算机工程》2007,33(22):23-25

为了实现不同数制的乘法共享硬件资源,提出了一种可以实现基于IEEE754标准的64位双精度浮点与32位单精度浮点、32位整数和16位定点的多功能阵列乘法器的设计方法。采用超前进位加法和流水线技术实现乘法器性能的提高。设计了与TMS320C6701乘法指令兼容的乘法单元,仿真结果验证了设计方案的正确性。相似文献

4.

基于改进的BOOTH编码的高速32×32位并行乘法器设计

刘强王荣生《计算机工程》2005,31(6):200-202

采用了一种改进的基—4 BOOTH编码方案,设计了一种高速32×32-b定/浮点并行乘法器。乘法器电路利用CPL逻辑来实现。通过对关键延时路径中的(4:2)压缩器和64位加法器的优化设计,可以在20ns内完成一次乘法运算。乘法器的设计由0.45um的双层金属CMOS工艺实现,工作电压为3.3V,用于自适应数字滤波运算中。相似文献

5.

基于SIMD部件的四倍精度浮点乘加器设计

何军黄永勤朱英《计算机科学》2013,40(12):15-18,51

如何减少四倍精度浮点运算的硬件开销和延迟是需要解决的重要问题。为减少四倍精度乘加器的硬件开销,基于支持64位×4的双精度浮点SIMD FMA部件,设计并实现了一种新的四倍精度浮点乘加器(QPFMA),来支持4种浮点乘加运算和乘法、加减法、比较运算,运算延迟为7拍。通过将四倍精度113位×113位尾数乘法器分解为4个57位×57位乘法器来共享双精度浮点SIMD FMA部件的53位×53位乘法器,显著减少了实现QPFMA的硬件开销。基于65nm工艺的逻辑综合结果表明,该QPFMA频率可达1.1GHz,面积是常规QPFMA设计的42.71％,仅与一个双精度浮点乘加器相当。与现有的QPFMA设计相比,相当工艺和频率下,其运算延迟减少了3拍,门数减少了65.96％。相似文献

6.

一种低延迟高吞吐率的浮点整型乘累加单元

沈俊沈海斌虞玉龙《计算机工程》2013,39(6)

针对目前浮点运算单元在处理向量点乘运算时存在数据相关性的问题,提出一种低延迟单周期的累加单元结构.该结构用于7级流水的可配置乘累加单元,可兼容双精度浮点、双单精度浮点以及32位有符号数,且能对后置模块进行操作数隔离与门控时钟的低功耗处理.在Viterx-4平台上实验结果表明,该结构具有高性能、低延迟、单周期完成数据吞吐等特点,与使用Xilinx浮点IP的设计面积相比,时间积减少30％以上. 相似文献

7.

X-DSP浮点乘法器的设计与实现

彭元喜杨洪杰谢刚《计算机应用》2010,30(11):3121-3125

为了满足高性能X-DSP浮点乘法器的性能、功耗、面积要求,研究分析了X型DSP总体结构和浮点乘法器指令特点,采用Booth 2编码算法和4∶2压缩树形结构,使用4级流水线结构设计实现了一款高性能低功耗浮点乘法器。使用逻辑综合工具Design Compiler,采用第三方公司0.13μm CMOS工艺库,对所设计的乘法器进行了综合,其结果为工作频率500MHz,面积67529.36μm2,功耗22.3424mW。相似文献

8.

一种wallace树压缩器硬件结构的实现

下载免费PDF全文

管幸福余宁梅路伟《计算机工程与应用》2011,47(23):76-78

设计了一种用于32位浮点乘法器尾数乘部分的wallace树压缩器的硬件结构实现方法,通过3-2和4-2压缩的混合搭配,构成一种新的wallace树压缩器,采用verilog硬件描述语言实现RTL级代码的编写,并使用VCS进行功能仿真,然后在SMIC0.13 μm的工艺下,用synopsys DC进行逻辑综合、优化。结果表明,这种压缩器在部分积的压缩过程中,有效地提高了运算速度,并在很大程度上减小了硬件实现面积。相似文献

9.

ARMv4指令集嵌入式微处理器设计

陈明敏易清明石敏《电子技术应用》2014,40(12):23-26

针对当前采用ARMv4指令集的嵌入式微处理器使用冯·诺依曼结构,数据和指令共用一条总线导致数据吞吐量降低的问题,设计了一款新架构微处理器。首先,采用哈佛结构独立的数据总线和指令总线,数据带宽提升一倍;其次,采用单周期32位乘法器,其计算速度是目前嵌入式乘法器计算速度的2倍;此外,利用资源共享,一个乘加器完成6种不同乘法和乘加指令,一个逻辑左移寄存器完成逻辑左移、逻辑右移、算术右移、循环右移4种功能。整个工程在Altera EP4CE30 FPGA芯片上进行物理验证。实验结果表明,通过改进,设计的嵌入式微处理器性能有所提升。相似文献

10.

高效结构的多输入浮点乘法器在FPGA上的实现 总被引：1，自引：0，他引：1

杜勇朱亮韩方景《计算机工程与应用》2006,42(10):103-104

传统的多输入浮点乘法运算是通过级联二输入浮点乘法器来实现的,这种结构不可避免地使运算时延和所需逻辑资源成倍增加,从而难以满足高速数字信号处理的需求。本文提出了一种适合于在FPGA上实现的浮点数据格式和可以在三级流水线内完成的一种高效的多输入浮点乘法器结构,并给出了在Xilinx公司Virtex系列芯片上的测试数据。相似文献

11.

一种128位高精度浮点乘加部件的研究与实现 总被引：2，自引：0，他引：2

张峰黎铁军徐炜遐《计算机工程与科学》2009,31(2)

高性能高精度的浮点数值处理一直是科学计算追求的目标。为此,本文研究并实现了一种128位浮点乘加融合计算单元。在乘法模块中,使用分块乘法,复用57位乘法模块,减小了数据宽度。采用三输入前导1预期技术,简化了预编码,缩短了预测电路的延时并减小面积。该模块单元使用Verilog语言实现,用Design Compiler进行逻辑综合,在simc0.13μm工艺下频率达202MHz,关键路径延时为4.93μs,面积约为191000门。相似文献

12.

一种低成本128位高精度浮点SIMD乘加单元的设计与实现

黄立波王志英沈立马胜《计算机工程与科学》2012,34(9):71-76

SIMD单元集成已经成为提高处理器性能的重要途径之一。虽然定点SIMD单元的硬件复用低成本设计技术已经较为成熟,但是,大部分浮点SIMD单元的硬件设计还停留在简单的硬件复制方法上。本文针对日益增长的128位高精度浮点操作的计算需求,提出了其相应的SIMD低成本硬件结构方案。综合实验结果表明,所提出的SIMD浮点乘加单元比传统128位高精度浮点乘加单元具有更加优化的性能与面积参数。相似文献

13.

快速浮点加法器的全定制设计

金光海《计算机与现代化》2004,(3):1-3

描述了一个流水线运行的、符合IEEE 75 4单精度浮点标准的加法器的全定制设计。该浮点加法器的设计基于SMIC 1 .8V 0 .1 8μm 1p6mCMOS工艺 ,将应用于高性能 32位CPU的浮点运算单元中。该设计在研究快速实现算法结构的基础上 ,采用全定制的电路及版图设计方法 ,提高了浮点加法器的工作速度 ,降低了芯片功耗 ,并通过减少芯片面积 ,有效降低芯片量产时的成本相似文献

14.

The TMS320C30 floating-point digital signal processor

Papamichalis P. Simar R. Jr. 《Micro, IEEE》1988,8(6):13-29

The 320C30 is a fast processor with a large memory space and floating-point-arithmetic capabilities. The authors describe the 320C30 architecture in detail, discussing both the internal organization of the device and the external interfaces. They also explain the pipeline structure, addressing software-related issues and constructs, and examine the development tools and support. Finally, they present examples of applications. Some of the major features of the 320C30 are: a 60-ns cycle time that results in execution of over 16 million instructions per second (MIPS) and over 33 million floating-point operations per second (Mflops); 32-bit data buses and 24-bit address buses for a 16M-word overall memory space; dual-access, 4 K×32-bit on-chip ROM and 2 K×32-bit on-chip RAM; a 64×32-bit program cache; a 32-bit integer/40-bit floating-point multiplier and ALU; eight extended-precision registers, eight auxiliary registers, and 23 control and status registers; generally single-cycle instructions; integer, floating-point, and logical operation; two- and three-operand instructions; an on-chip DMA controller; and fabrication in 1-μm CMOS technology and packaging in a 180-pin package. These facilitate FIR (finite impulse response) and IIR (infinite impulse response) filtering, telecommunications and speech applications, and graphics and image processing applications 相似文献

15.

基于FPGA的32位并行乘法器的设计与实现 总被引：1，自引：0，他引：1

蒋勇罗玉平马晏叶新《计算机工程》2005,31(23):222-224

首先分析比较了几种典型的乘法器实现结构，然后采用树型组合方式，对其结构进行了优化，最后在FPGA上设计并实现了一个高性能的32位并行乘法器。相似文献

16.

Mixed-precision evaluation of two-electron integrals by Rys quadrature

Andrey Asadchev Mark S. Gordon 《Computer Physics Communications》2012,183(8):1563-1567

A mixed precision implementation of two-electron integrals is demonstrated to have two benefits: (a) computations can be performed reliably in 32-bit precision on architectures for which 32-bit precision is significantly faster than 64-bit precision (e.g. graphical processing units), and (b) numerical results that match those using higher than 64-bit precision can be recovered without a significant penalty associated with performing the entire computation in higher precision. A justification is presented for using mixed precision in the Rys two-electron integral quadrature algorithm, together with timings and numerical results using a variety of floating-point types. The code discussed here presents a systematic way to control the accuracy of the Rys algorithm, regardless of the types and numbers of integrals. 相似文献

17.

高性能子字并行运算单元的设计与实现

下载免费PDF全文

董冕吴丹饶金理黄威戴葵邹雪城《计算机工程》2012,38(16):249-252

通过硬件共享的方式实现一套高性能子字并行运算单元,运算单元采用流水线设计,可以一个周期进行1个64-bit、2个32-bit、4个16-bit或8个8-bit定点运算,1个双精度或2个单精度浮点运算。运算单元采用Verilog HDL设计,在0.18 μm 标准CMOS工艺库下实现,并针对实际多媒体应用程序基于ESCA系统进行性能评测。实验结果表明,该运算单元可以在硬件开销和性能上获得较好的平衡。相似文献

18.

32位嵌入式系统中扩展精度数学算法实现

下载免费PDF全文

聂胜伟陆士强程恩惠《计算机工程》2006,32(23):271-272

提出了一种32位嵌入式系统中应用的扩展精度数学算法。适用于缺乏数字协处理器硬件支持并且软件浮点运算达不到系统时间要求的系统。算法运算数据精度高、扩展性好。介绍了32位乘法、除法、开方算法以及64位加法、减法、乘法算法。相似文献

19.

Design of a reversible floating-point square root using modified non-restoring algorithm

《Microprocessors and Microsystems》2017

In this work, a reversible single precision floating-point square root is proposed using modified non-restoring algorithm. To our knowledge, this is the first work proposed for floating-point square root using reversible logic. The main block involved in the implementation of reversible square root using modified non-restoring technique is Reversible Controlled-Subtract-Multiplex. Further, optimized Reversible Controlled-Subtract-Multiplex blocks are introduced in order to minimize the number of reversible gates used, number of constant inputs used, number of garbage outputs produced as well as the quantum cost. The proposed reversible single precision floating-point square root is realized using an 8-bit reversible adder, an 8-bit and a 25-bit reversible shift register, 12-bit reversible unsigned square root, 6-bit reversible unsigned square root, 4-bit reversible unsigned square root, 3-bit reversible unsigned square root and ten 1-bit reversible unsigned square root units. 相似文献