共查询到20条相似文献,搜索用时 390 毫秒
1.
64位MIPS指令处理器的流水线设计 总被引:2,自引:1,他引:1
介绍了一种采用64位MIPS指令集CPU的流水线设计。作为SOC的核心,CPU的性能主要取决于指令的执行效率,而采用流水线方式大大增加了指令的执行速度,提高了CPU的性能。该CPU使用五级流水线设计,文中对影响流水线正常执行的各种因素进行了分析,以及在实际设计中采用相应的控制机制,从而完成对一个具有较高性能的CPU核的流水线控制的设计。 相似文献
2.
3.
32位浮点嵌入式MCU设计研究 总被引:3,自引:2,他引:1
本文介绍了一个基于RISC体系结构的32位浮点嵌入式MCU的设计实现。该:MCU内含128kbit的SRAM、采用哈佛结构、四级指令流水线、32位指令字长和内部43位数据字长。MCU内部设置多个快速寄存器及采用硬连线逻辑代替微程序控制的方法,加快了微处理器的速度,提高了指令执行效率。设计中还采用对寄存器同步写、异步读的方式避免了数据相关问题。 相似文献
4.
5.
文章参考opencores组织的开源代码,完成基于5级流水线的32位MIPSCPU的设计,并通过增加相关逻辑解决流水线冒险与竞争。设计的CPU文中称为OPS1-CPU,使用基于Windows-DOS系统搭建gccmips_elf编译系统,用来对应用程序进行编译、链接与执行,生成相应汇编语言程序以及仿真向量文件。最终将设计的OPS1-CPU成功下载到ALTERA公司的FPGA芯片EP1C6Q240,进行了板级的指令级调试与验证,证明OPS1-CPU硬件系统与编译系统运行正常,完成MIPS系统的平台搭建。 相似文献
6.
“龙腾R2”微处理器流水线的设计及优化 总被引:4,自引:3,他引:1
32位RISC微处理器“龙腾R2”是西北工业大学航空微电子中心2005年设计的一款自主知识产权的嵌入式微处理器。采用PowerPC体系结构,六级流水线,具有独立的数据Cache和指令Cache。文章介绍“龙腾R2”处理器流水线的设计思想以及优化方案。重点介绍流水线中相关的解决方案、精确异常的实现以及流水线中指令预取级的设计与实现等。 相似文献
7.
介绍了基于FPGA平台,设计16位精简指令集流水线CPU.该CPU参考MIPS架构设计精简指令集,通过分析指令处理过程实现五级流水线结构,结合"预测技术"和数据前推方法解决流水线相关问题.为了支持CPU软件架构,设计指令集的汇编编译器.在Modelsim平台运行测试程序,给出仿真综合结果.通过试验结果对比表明,所设计的CPU处理过程所需时钟周期大大减少. 相似文献
8.
9.
32位CISC微处理器流水线的设计 总被引:2,自引:1,他引:1
介绍一款全正向自主设计的32位CISC结构微处理器龙腾C2中的流水线设计.该处理器与Intel486DX4指令集兼容。针对CISC结构微处理器流水线设计的难点,采用了微指令流水执行等技术.设计了龙腾C2的7级流水线结构。分析了影响流水线正常执行的各种因素,设计了流水线相关处理机制和精确中断实现机制.实现了一个具有较高性能的CISC微处理器的流水线。仿真和综合的结果表明。该流水线的设计满足龙腾C2微处理器的功能和性能要求。 相似文献
10.
11.
在实际的高性能定点数字信号处理器(DSP)设计过程中,往往需要设计一个功能复杂的乘累加器。也就是说,乘累加器不光是要同时完成通常所见的带符号数和无符号数的乘加及乘减运算,而且还需要同时完成整数乘加和小数乘加运算,无偏差的舍入运算,饱和等功能。另外,为了解决DSP中数据相关的问题,往往要求乘累加器在单拍完成所有的这些运算,因此很难找到一个高速度低成本的实现方案。文章首先给出了通常的高性能定点DSP中乘累加器所需要完成的功能需求,然后提出并实现了一个16位高性能乘累加器,将其所需要完成的上述各种功能巧妙地整合起来在单拍内完成,而完成所有上述功能只需要3级4:2压缩和一次超前进位的加法运算。该乘累加器采用0.35μm工艺实现,已经嵌入到数字信号处理器中并已经成功应用于实际的工程项目。 相似文献
12.
讨论了一种FFT结构中乘法器实现。该结构采用基于流水线结构和快速并行乘法器的蝶形处理器。乘法器采用改进的Booth算法,简化了部分积符号扩展,使用改进的Wallace树型和4-2压缩器对部分积归约。以8点复点FFT为实例设计相应的控制电路。使用VHDL语言完成设计,并综合到FPGA中。 相似文献
13.
一种新的布斯编码器结构 总被引:3,自引:3,他引:0
针对传统乘法器中布斯编码器存在的问题,文章提出了一种新式布斯编码器结构。传统的布斯编码器采用3个编码信号,在处理不同的部分积时电路比较臃肿,新的结构采用四个编码信号,可以方便地实现乘法/乘累加切换,并且处理不同情况下的部分积非常简单,而电路本身并没有变得复杂。新的布斯编码器的另一个特点是全部采用了MUX结构来搭建,这样给最终布线带来很大方便。最后通过HSPICE(0.35μm CMOS)模拟进一步证明了新编码器相对于以往的编码器的优势。 相似文献
14.
基于快速舍入的双精度浮点乘法器的设计 总被引:1,自引:1,他引:0
文章设计了一个基于快速合入的双精度浮点乘法器。它通过预测和选择实现快速舍入。克服了传统合入方法舍入模式单一、舍入逻辑复杂、硬件开销大等不足,显著地提高了浮点乘法器的性能。该浮点乘法器采用四级流水线,在0.180μm CMOS工艺下综合实现,关键路径延迟为3.15ns。 相似文献
15.
16.
《Solid-State Circuits, IEEE Journal of》1976,11(5):669-678
A 4-bit, general-purpose, two's complement serial pipeline multiplier chip has been designed and fabricated in the bipolar GIMIC-O process. The chip can provide the following functions in 24-pin dual-in-line packages: (1) two's complement/two's complement 4-bit serial pipeline multiplier with programmable coefficients, (2) sign magnitude/two's complement 4-bit serial pipeline multiplier with programmable coefficients, (3) 5-bit dynamically programmable adder/subtractor, (4) 2/SUP -K/ scaler; (5) overflow corrector. Packages can be cascaded to provide functions of length greater than 4 bits. Nonsaturating circuit techniques, emitter function logic combined with current-steering trees, are effectively utilized to make high-performance, low-power circuits using a simple bipolar technology. The multiplier circuitry is compatible at inputs and outputs with standard emitter coupled logic and uses a standard -5.2/spl plusmn/10 percent power supply. Fully programmable multiplication at clock rates greater than 20 MHz is achieved with a power consumption of 37.5 mW/bit. 相似文献
17.
A bit-level pipelined 12 b×12 b two's complement multiplier with a 27 b accumulator has been designed and fabricated in 1.0 μm p-well CMOS technology. A new quasi N-P domino logic structure has been adopted to increase the throughput rate, and special pipeline structures were used in the accumulator to reduce the total latency. The chip complexity is approximately 10000 transistors and the die area is 2.5 mm×3.7 mm. The measured maximum clock rate is 200 MHz (i.e. 200 million multiply-accumulate operations per second), and the power-speed ratio is 6.5 mW/MHz. A unique output buffer design was also adopted to achieve 200 MHz off-chip communication while maintaining full CMOS logic levels 相似文献
18.
基于有限域上多项式乘法理论,采用高层次设计方法,采用CPLD实现了GF(2^8)上8位快速乘法器,利用XILINX公司的Foundation Series3.1i集成设计环境完成了快速乘法器的VHDL源代码输入、功能仿真、布局与布线、时序仿真,并用XC9572PC84可编程逻辑芯片验证了该电路设计。该乘法器可以应用于RS(255,223)码编/译码器。 相似文献
19.
Singh H.P. Sadler R.A. Irvine J.A. Gorder G.E. 《Electron Devices, IEEE Transactions on》1989,36(2):240-249
A high-speed 4-bit ALU, 4×4-bit multiplier, and 8×8-bit multiplier/accumulator have been implemented in low-power GaAs enhanced/depletion E/D direct-coupled FET logic (DCFL). Circuits are fabricated with a high-yield titanium tungsten nitride self-aligned gate MESFET process. The 4-bit ALU performs at up to 1.2 GHz with only 131-mW power dissipation. The multiplication time for the 4×4-bit array multiplier is 940 ps, which is the fastest multiplication time reported for any semiconductor technology. The 8×8-bit two's complement multiplier/accumulator uses 4278 FETs (1317 logic gates) and exhibits a multiplication time of 3.17 ns. the fastest yet reported for a multiplier of this type. Yield on the best wafer for the 4×4-bit and 8×8-bit circuits is 94 and 43%, respectively. A digital arithmetic subsystem has been demonstrated, consisting of the 8×8-bit multiplier/accumulator, two of the 4-bit ALUs, three logical multiplexers, and a logical demultiplexer. The subsystem performs arithmetic and logic functions required in signal processing at clock rates as high as 325 MHz 相似文献
20.
This paper proposes an 8?×?8 bit parallel multiplier using MOS current mode logic (MCML) for low power consumption. The 8?×?8 bit multiplier is designed with the proposed MCML full adders and the conventional full adders. The proposed multiplier is achieved to reduce the power consumption by 9.4% and the power-delay-product by 11.7% compared with the conventional circuit. The validity and effectiveness are verified through HSPICE simulation. The proposed multiplier is designed with the Samsung 0.35?μm standard CMOS process. 相似文献