首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 203 毫秒
1.
为了实现不同数制的乘法共享硬件资源,提出了一种可以实现基于IEEE754标准的64位双精度浮点与32位单精度浮点、32位整数和16位定点的多功能阵列乘法器的设计方法。采用超前进位加法和流水线技术实现乘法器性能的提高。设计了与TMS320C6701乘法指令兼容的乘法单元,仿真结果验证了设计方案的正确性。  相似文献   

2.
银河TS-1微处理器的流水线   总被引:1,自引:0,他引:1  
赵学秘  陆洪毅  王蕾  戴葵  王志英 《计算机工程》2003,29(5):142-143,F003
银河TS-1微处理器是国防科技大学计算机学院自行设计的具有自主版权的32位嵌入式微处理器,参考标准DLX5级流水线设计了银河TS-1流水线核基本的指令处理通路和数据通路,并以此为基础提出了一种更为高效的6级流水线:取指,译码,操作数准备,ALU执行,数据获取,写回。此6级流水线与5级流水线相比,硬件开销增加很少,但加速比小于1.54。  相似文献   

3.
针对目前浮点运算单元在处理向量点乘运算时存在数据相关性的问题,提出一种低延迟单周期的累加单元结构.该结构用于7级流水的可配置乘累加单元,可兼容双精度浮点、双单精度浮点以及32位有符号数,且能对后置模块进行操作数隔离与门控时钟的低功耗处理.在Viterx-4平台上实验结果表明,该结构具有高性能、低延迟、单周期完成数据吞吐等特点,与使用Xilinx浮点IP的设计面积相比,时间积减少30%以上.  相似文献   

4.
在采用基于VelociTI结构浮点DSPs流水线模式设计具有自主知识产权的数字信号处理器中,为了正确有效地实现对流水线异常的控制,提出了一种该结构流水线发生异常时的处理方法。对引起流水线异常的情况进行了合理的分类,存储器阻塞、多执行包和多周期NOP指令采用通过控制流水线寄存器的时钟信号实现控制。采用控制指令的执行条件实现了中断引起的流水线队列中部分指令的废除。对提出的方法采用VHDL语言建模设计,仿真结果验证了其正确性。  相似文献   

5.
高性能数字信号处理器的设计   总被引:1,自引:0,他引:1  
严伟  龚幼民 《微处理机》2004,25(4):10-15
本文完成了16位的数字信号处理器的设计,该数字信号处理器设计了针对信号处理的指令与体系结构,指令数为88条,综合后数字信号处理器的内核单元数为12799。十六位定点数字信号处理器为单发射系统,采用了多数据和地址总线设计,使四级流水在流水线的四个周期保持正常的数据流动,分散的寄存器形式结构,使多数指令在一周期内得到完成。数字信号处理器包含了中央算术逻辑单元、乘法器单元、移位器单元、排序器单元、辅助寄存器单元、中断单元的设计。在中央算术逻辑单元中,完成加/减运算以及逻辑运算,在进位链中采用了选择进位链,对数据溢出采用了饱和处理的方法;在乘法器单元中采用BOOTH算法和先进进位加法器相结合的单元设计;在排序器设计中,按照中断、指令第二指令字、累加器、堆栈等不同的程序排序源设计不同的通路,并按照ZLVC的条件,设计了条件转移指令;在辅助寄存器单元选择一条与正向进位相反方向的进位来实现FFT算法位反序要求;在中断单元中,采用二级中断,大堆栈保存地址,流水“冲刷”技术。  相似文献   

6.
张轩  李兆麟 《计算机工程》2007,33(20):248-250
采用全定制设计方法实现了一种6读2写的3232位的多端口寄存器堆,包括结构设计、电路设计、版图设计、仿真验证以及建模建库。该多端口寄存器堆的读写端口互相独立,在一个时钟周期内,能够同时读出6个32位数据,并写入2个32位数据。在电路实现上,采用高速SCL结构的地址译码和分组字线的方法来减少读写延迟。采用了0.18µm 6层金属P阱CMOS工艺来实现版图设计,通过了版图验证和后端仿真。  相似文献   

7.
黄伟  韩军  王帅  曾晓洋 《计算机工程》2011,37(24):120-122
提出一种面向安全领域的专用指令集处理器(ASIP)设计方案,ASIP的指令ROM被划分成两部分,在某些指令下可以关闭其中一块以节省功耗,采用门控时钟技术降低寄存器堆中各个寄存器的功耗,对当前指令周期中EXE级内部空闲功能单元的输入操作数进行锁存,避免该功能单元的信号翻转,从而降低其动态功耗。实验结果表明,该方案能够使ASIP核心功能单元的功耗降低30%,系统整体功耗降低16%。  相似文献   

8.
功能部件是处理器中进行指令运算的核心单元,它的算法及其实现直接影响到处理器的总体性能.介绍了龙芯2号处理器的功能部件,探讨了从算法到物理设计等不同层次的功能部件设计方法.龙芯2号功能部件分为两个定点ALU和两个浮点ALU实现,除实现完整的MIPS定、浮点指令集外,还实现了龙芯2号类MMX自定义多媒体指令集以及定点操作在浮点部件(FPU)中的数据通路复用.龙芯2号浮点部件遵照IEEE754和MIPS相关标准,浮点加法4拍完成,浮点乘法5拍完成,浮点除法4~17拍完成.物理设计支持0.18μm工艺下主频500MHz的标准单元实现,浮点单精度峰值性能达到2GFLOPS.双精度峰值性能达到1GFLOPS.  相似文献   

9.
文章介绍了基于FPGA的流水线RISC微处理器的设计,包括关键模块设计和流水线设计.所设计的微处理器主要由ALU,译码单元,取指逻辑,寄存器堆,指令存储器,数据存储器等关键模块组成,其指令和数据长度都为32位,采用三种寻址方式.通过对关键模块的时序分析,设计合理的流水线.文章着重分析了因流水线产生的相关性问题.并采用旁路技术(Forwarding)和硬件"猜测法"加以解决.综合和功能仿真结果表明该RISC处理器达到了设计要求,其最高时钟频率达到74.59MHz.  相似文献   

10.
针对双精度浮点除法通常运算过程复杂、延时较大这一问题,提出一种基于Goldschmidt算法设计支持IEEE-754标准的高性能双精度浮点除法器方法。首先,分析Goldschmidt算法运算除法的过程以及迭代运算产生的误差;然后,提出了控制误差的方法;其次,采用了较节约面积的双查找表法确定迭代初值,迭代单元采用并行乘法器结构以提高迭代速度;最后,合理划分流水站,控制迭代过程使浮点除法可以流水执行,从而进一步提高除法器运算速率。实验结果表明,在40 nm工艺下,双精度浮点除法器采用14位迭代初值流水结构,其综合cell面积为84902.2618 μm2,运行频率可达2.2 GHz;相比采用8位迭代初值流水结构运算速度提高了32.73%,面积增加了5.05%;计算一条双精度浮点除法的延迟为12个时钟周期,流水执行时,单条除法平均延迟为3个时钟周期,与其他处理器中基于SRT算法实现的双精度浮点除法器相比,数据吞吐率提高了3~7倍;与其他处理器中基于Goldschmidt算法实现的双精度浮点除法器相比,数据吞吐率提高了2~3倍。  相似文献   

11.
浮点三角函数计算是导航系统、三维图像处理、雷达信号预处理等领域的基本运算.本文采用CORDIC算法及全定制集成电路设计方法实现了一种浮点三角函数计算电路,其输出数据兼容IEEE-754单精度浮点数标准.本文首先介绍了CORDIC算法的原理,并根据性能优先的原则采用了流水线结构;然后给出了基于SMIC O.13μm 1P...  相似文献   

12.
在科学计算、数字信号处理、通信和图像处理等应用中,除法运算是常用的基本操作之一。基于SRT 8除法算法,设计一个SIMD结构的IEEE 754标准浮点除法器,在同一硬件平台上能够实现双精度浮点除法和两个并行的单精度浮点除法。通过优化SRT 8迭代除法结构,提出商选择和余数加法的并行处理,并采用商数字存储技术降低迭代除法的计算延时,提高频率。同时,采用复用策略减少硬件资源开销,节省面积。实验表明,在40nm工艺下,本设计综合cell面积为18601.9681 μm2,运行频率可达2.5GHz,相对传统的SRT 8实现关键延迟减少了23.81%。  相似文献   

13.
浮点开方运算单元的电路设计   总被引:2,自引:0,他引:2  
文章提出了一种基于逐位循环开方算法,"四位一开方"的浮点开方运算单元的电路设计方案,使限制周期时间的循环迭代部分的门级数降低到14级。按14级门延时为周期时间计算,完成一个IEEE单、双精度浮点数的开方运算分别需要15和29周期。同时,文章对目前开方运算所采用的两类主要的算法-逐位循环开方算法和牛顿-莱福森迭代开方算法进行了描述,其中包括数的冗余表示等内容。  相似文献   

14.
Performing computations with a low-bit number representation results in a faster implementation that uses less silicon, and hence allows an algorithm to be implemented in smaller and cheaper processors without loss of performance. We propose a novel formulation to efficiently exploit the low (or non-standard) precision number representation of some computer architectures when computing the solution to constrained LQR problems, such as those that arise in predictive control. The main idea is to include suitably-defined decision variables in the quadratic program, in addition to the states and the inputs, to allow for smaller roundoff errors in the solver. This enables one to trade off the number of bits used for data representation against speed and/or hardware resources, so that smaller numerical errors can be achieved for the same number of bits (same silicon area). Because of data dependencies, the algorithm complexity, in terms of computation time and hardware resources, does not necessarily increase despite the larger number of decision variables. Examples show that a 10-fold reduction in hardware resources is possible compared to using double precision floating point, without loss of closed-loop performance.  相似文献   

15.
NPU1750A微处理器是西北工业大学航空微电子中心自主设计的基于MIL-STD-1750A标准的16位定、浮点微处理器。该处理器具有处理定点数据和浮点数据的功能,文章提出了一种新的浮点执行部件的设计方案,使其既能处理浮点运算,也能处理复杂的定点运算。在控制器设计中,为减少控制存储器的字长,该文提出了分页式微程序寻址的控制器设计思想。文章着重讨论了NPU1750A的数据通路和控制通路设计思想与设计实现,并就缩短关键路径,提高工作速度进行了讨论。该微处理器的设计采用SYNOPSYS工具,用VHDL语言描述、模拟和综合,并在ALTERA的FPGA上实现,规模约16万等效门,全部通过了原理样机验证。  相似文献   

16.
当前,通用处理器一般支持64位浮点运算,在大规模和长时程数值计算中,由于浮点运算的舍入误差累积效应,可能导致数值结果不可信。因此,有效控制误差,设计高精度、高效可靠的浮点数值算法至关重要。基于SCILAB软件平台,通过使用无误差变换和double double数据格式,实现了高精度的算法库。对幂指数、Bernstein和Chebyshev基多项式函数估值,在Intel平台和国产飞腾处理器平台上进行了数值实验,实验结果证实了该高性能数值算法库的有效性。该多精度算法库具有独立知识产权,可有效应用于国产自主可控处理器平台,为国家重大科研项目提供技术支持。  相似文献   

17.
Most of the scientific and engineering applications require accurate computations. Double precision floating point computations are not enough for many applications like climate modelling, computational physics, etc. Efficient design of quadruple precision floating point adder is needed for these applications. The proposed multi-mode quadruple precision floating point adder architecture supports four single precision operations in parallel, as well as two double precision operations in parallel and also supports one quadruple precision operation. Compared to existing Quadruple precision floating point adders and Dual mode Quadruple precision floating point adder, the proposed architecture can perform more computations with less area because of resource sharing among different precision operands. The proposed Multi-mode quadruple precision adder supports both normal and subnormal operations and also the exceptional case handling such as infinity, Not a Number (NaN) and zero cases. The proposed adder has been designed and implemented in both ASIC and FPGA. During ASIC implementation with 90 nm technology using the synopsis tool, the proposed Multi-mode quadruple precision floating point adder has a 38.57% smaller area compared to the existing quadruple precision floating point adder. Similarly, the proposed design reduces the area by 29.28% and 35.68% when implemented on Virtex 4 and Virtex 5 FPGAs respectively.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号