期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

唐俊龙吴圳羲卢英龙黄智昌邹望辉《电子设计工程》2023,(7):119-123+131

针对软件实现浮点运算的速度无法满足RISC-V嵌入式处理器浮点运算的需求,设计了一种由浮点加法器和浮点乘法器构成的浮点单元（FPU）,其中浮点乘法器提出了新型的Wallace树压缩结构,提高了压缩速率。在“蜂鸟E203”处理器中,完成浮点指令的译码模块与派遣模块的设计,实现FPU模块的移植。基于Simc180 nm工艺,使用Sysnopsys公司的Design Compile、VCS工具对FPU进行功能验证和综合,仿真结果表明,浮点加法器的关键路径延时为10.17 ns,相比于串行浮点加法器延时缩短23%,浮点乘法器的压缩结构关键路径延时为0.27 ns,相比传统Wallace树压缩延时缩短10%,移植前后的FPU运算结果一致。相似文献

2.

32位RISC微处理器"龙腾R2"浮点流水线的设计和实现

李大鹏张盛兵罗旻《微电子学与计算机》2006,23(1):188-191

文章介绍了32位RISC微处理器“龙腾R2”浮点处理单元的体系结构和设计，重点讨论了乱序执行、乱序、结束的高性能浮点流水线设计。为了实现流水线中的精确中断响应，本文采用了一种基于操作数指数和操作类型的浮点异常预测的方法．根据预测结果决定流水线的发射策略。基于0．18μm标准单元综合的结果表明：采用该方法实现的浮点处理流水线．与顺序控制和基于Tomasub算法实现的浮点处理单元相比，整个FPU在付出较少硬件面积的情况下得到了理想的效果．满足功能和时序要求。相似文献

3.

微处理器浮点IP核集成设计

赵勇张盛兵王党辉《微电子学与计算机》2006,23(7):129-133

探讨了一个可靠性高，通讯代价低的浮点IP集成方案。浮点运算IPFXU采用80bit扩展精度,支持i960mc的浮点指令集。为了在兼容X86指令集的32bit处理器系统中，实现IP核的集成，精心设计了耦合单元（FIU），以完成数据请求的拆分，指令匹配，数据的打包、卸包和处理器的同步控制。相似文献

4.

基于小波变换的智能家居通信异常数据的检测系统设计

赵磊《现代电子技术》2021,(2):140-143

针对当前智能家居通信异常现状,采用传统系统受到外界干扰而导致检测精准度低的问题,提出基于小波变换的智能家居通信异常数据的检测系统设计.根据系统硬件结构,通过代理服务器实现不同防火墙之间的信息转换,以此进行异常数据检测.设计CPU控制模块,从控制单元、计算单元和存储单元根据用户预先编号的程序,依次从存储器中取出各种指令,... 相似文献

5.

32位嵌入式CPU中系统控制协处理器的设计与实现

金钊《电子设计应用》2006,(10):97-98,100

系统控制协处理器是MIPS体系结构CPU中必需的一个单元模块。它最主要的功能就是利用一系列特权寄存器记录当前CPU所处的状态,负责异常/中断处理,提供指令正常执行所需的环境。本文论述了一个实现MIPS4Kc指令集CPU中系统控制协处理器的设计,包括对特权寄存器写操作的实现,精确异常处理机制和全定制后端物理设计。相似文献

6.

TWR-K70F120M：MCU模块开发方案

《世界电子元器件》2012,(3):12-14

Freescale公司的KinetisK70是具有浮点单元，图像LCD，IEEE．1588以太网MAC，全速和高速USB2．0OTG．加密和篡改检测的低功耗32位MCU，采用ARM．Cortex-M4内核，支持DSP指令，集成了512kB或1MB闪存。相似文献

7.

新一代CPU芯片综述

邱向群《电子技术》1995,22(6):2-3,12

新一代ＣＰＵ芯片综述西安交通大学电气工程学院（７１００４９）邱向群目前上市的新一代ＣＰＵ芯片速度可高达５０－２００ＭＨｚ，每秒钟可处理４亿条指令（即４００ＭＩＰＳ）。除此之外，新一代ＣＰＵ芯片还有浮点处理和内存管理单元，大多数还有高速缓冲单元。Ｕ往Ｉ... 相似文献

8.

高速浮点运算单元的FPGA实现

张小妍邵杰《电子工程师》2009,35(11):24-27

运用流水线技术对单精度浮点乘法和加法运算单元进行了优化设计。浮点加法器采用了改进的双路径结构,重点对移位单元和前导1检测单元的结构进行了优化。浮点乘法器在对被乘数进行Booth编码后,采用改进的4-2压缩器构成Wallace树,在简化逻辑的同时,提高了系统的吞吐率。经过仿真验证,在Virtex-4系列FPGA（现场可编程门阵列）上,浮点加法器的最高运行速率达到405MHz,浮点乘法器的最高运行速率达到429MHz。相似文献

9.

FPU加法器的设计与实现

田祎颜军《电子设计工程》2012,20(12):13-15,20

浮点运算器的核心运算部件是浮点加法器,它是实现浮点指令各种运算的基础,其设计优化对于提高浮点运算的速度和精度相当关键。文章从浮点加法器算法和电路实现的角度给出设计方法,通过VHDL语言在QuartusII中进行设计和验证,此加法器通过状态机控制运算,有效地降低了功耗,提高了速度,改善了性能。相似文献

10.

面向ＲＩＳＣ－Ｖ处理器的高速浮点单元设计

下载免费PDF全文

常龙鑫虞致国钟啸宇顾晓峰《电子器件》2022,45(6):1289-1295

浮点单元是高性能处理器的速度瓶颈之一,基于广泛应用的开源RISC-V浮点单元原型,设计了一种面向RISC-V处理器的高速浮点单元。对该原型中时序最差的浮点融合乘加、除法开方、整数转浮点子模块分别进行静态时序分析,并定位其中需要优化的关键模块。针对该浮点单元原型中存在的问题,提出基于算法优化和流水线优化的设计思路,设计基4 Booth-Wallace乘法模块替代原有多位宽乘法模块,设计基于二叉树的并行前导零检测模块替代原有串行前导零检测模块,增加了部分子模块的流水线级数。基于SMIC 55 nm工艺对优化设计前后的RISC-V浮点单元原型进行了性能评估,优化后的工作频率达到820 MHz,提升了39.46%,而面积开销增加了15.14%。相似文献

11.

一种基于ARM处理器的异常处理设计与实现

项涛黄保垒《电子科技》2014,27(7):113-116

嵌入式系统要求对异常及中断处理器能快速响应。文中分析了ARM体系结构下异常处理特点,提出一种基于ARM处理器的高效异常处理解决方案,以LPC3250硬件平台为基础,对该方案进行了设计与实现。测试结果表明,该方案的异常处理更为高效。相似文献

12.

QR_RLS算法的浮点脉动阵结构研究与FPGA实现

杜鹤买培培苏涛张子敬《现代雷达》2011,33(5)

随着雷达信号处理技术的不断发展,对实时并行性和处理精度都提出了更高的要求,脉动阵结构是雷达信号处理中一种关键并行处理结构.文中介绍了一种基于QR_RLS算法的浮点脉动阵结构.为了提高运算速度,充分利用资源,引入了自定义浮点格式及该格式下的浮点运算单元的设计,并改进了平方根算法,提高了运算精度.在FPGA上实现了这种脉动阵结构,结果表明这种自定义浮点格式的脉动阵结构在提高了运算精度的同时,降低了相应的资源占用率,对实时信号处理的工程设计具有较高的参考价值. 相似文献

13.

Java语言异常处理的探讨 总被引：1，自引：0，他引：1

姜国权李亚敏曾立华宋志国《信息技术》2005,29(10):109-111

随着系统规模的不断扩大，传统的异常处理技术已经成为创建大型可维护程序的障碍了。Java是一种面向对象的程序设计语言，Java的异常处理非常出色。Java把异常封装到类里。运用“try／catch／finally”异常处理机制，最终得到的是更为“健壮”的异常处理代码。结合开发实践，用实例说明了Java异常处理如何具体应用。相似文献

14.

A 10 ns hybrid number system data execution unit for digital signalprocessing systems

Lai F. 《Solid-State Circuits, IEEE Journal of》1991,26(4):590-599

A high-performance data execution unit suitable for computation-intensive digital signal processing systems is described. This unit uses the hybrid number system approach to speed up the basic arithmetic operations while remaining compatible with a standard IEEE 32-b floating-point format. However, all the arithmetic operations are performed in the 32 b logarithmic number system (LNS) domain. This chip is designed using a 3.4 V 0.8 μm CMOS technology with double-layer metallization. Conversion algorithms, chip architecture, design methodology, and major circuit components are discussed. A macrocell design methodology is adopted in order to achieve high-performance custom design circuits with the convenience of an automatic layout system. Computer simulations indicate that all the 32 b floating-point arithmetic operations (multiplication, division, squaring, and square root) can be executed in 10 ns. Extension of this unit into a 64 b double-precision floating-point system and multiply-accumulation applications are also presented 相似文献

15.

嵌入式CPU异常处理的设计及其硬件实现 总被引：1，自引：0，他引：1

王力翔茆邦琴时龙兴冀力强《半导体技术》2001,26(8):27-30

嵌入式CPU已成为SOC设计的热点。异常处理是CPU设计中最关键的部分,介绍嵌入式CPU异常处理的一般机制,并在此基础上设计32位CPU的异常处理模块,给出了仿真结果,并讨论了其方便的可扩展性。相似文献

16.

A 1.2 GFLOPS neural network chip for high-speed neural networkservers

Kondo Y. Koshiba Y. Arima Y. Murasaki M. Yamada T. Amishiro H. Mori H. Kyuma K. 《Solid-State Circuits, IEEE Journal of》1996,31(6):860-864

This paper describes a digital neural network chip for high-speed neural network servers. The chip employs single-instruction multiple-data stream (SIMD) architecture consisting of 12 floating-point processing units, a control unit, and a nonlinear function unit. At a 50 MHz clock frequency, the chip achieves a peak speed performance of 1.2 GFLOPS using 24-bit floating-point representation. Two schemes of expanding the network size enable neural tasks requiring over 1 million synapses to be executed. The average speed performances of typical neural network models are also discussed 相似文献

17.

A 320 MFLOPS CMOS floating-point processing unit for superscalarprocessors

Ide N. Fukuhisa H. Kondo Y. Yoshida T. Nagamatsu M. Junji M. Yamazaki I. Ueno K. 《Solid-State Circuits, IEEE Journal of》1993,28(3):352-361

A CMOS pipelined floating-point processing unit (FPU) for superscalar processors is described. It is fabricated using a 0.5 μm CMOS triple-metal-layer technology on a 61 mm² die. The FPU has two execution modes to meet precise scientific computations and real-time applications. It can start two FPU operations in each cycle, and this achieves a peak performance of 160 MFLOPS double or single precision with an 80 MHz clock. Furthermore, the original computation mode, twin single-precision computation, double the peak performance and delivers 320 MFLOPS single precision. Its full bypass reduces the latency of operations, including load and store, and achieves an effective throughput even in nonvectorizable computations. An out-of-order completion is provided by using a new exception prediction method and a pipeline stall technique 相似文献

18.

Windows异常处理与软件安全

羊建林周安民《信息安全与通信保密》2011,(4):58-60

Windows异常处理机制与软件安全关系密切,先概述Windows异常处理机制的一般概念（系统提供的支持、高级语言和编译器的封装等）,接着讨论其在软件保护方面的应用,最后讨论其被用于软件漏洞攻击的原理以及针对性的改进。异常处理机制是Windows系统提供的一套强大而优雅的处理约定,在程序设计和信息安全领域随处可见,程序员、信息安全相关人员等都应当对其有深入的研究。相似文献

19.

基于部分积概率分析的高精度低功耗近似浮点乘法器设计

闫成刚赵轩徐宸宇陈珂葛际鹏王成华刘伟强《电子与信息学报》2023,45(1):87-95

浮点乘法器是高动态范围(HDR)图像处理、无线通信等系统中的关键运算单元,其相比于定点乘法器动态范围更广,但复杂度更高。近似计算作为一种新兴范式,在受限的精度损失范围内,可大幅降低硬件资源和功耗开销。该文提出一种16 bit半精度近似浮点乘法器(App-Fp-Mul),针对浮点乘法器中的尾数乘法模块,根据其部分积阵列中出现1的概率,提出一种对输入顺序不敏感的近似4-2压缩器及低位或门压缩方法,在精度损失较小的条件下有效降低了浮点乘法器资源及功耗。相较于精确设计,所提近似浮点乘法器在归一化平均错误距离(NMED)为0.0014时,面积及功耗延时积方面分别降低20%及58%;相较于现有近似设计,在近似位宽相同时具有更高的精度及更小的功耗延时积。最后将该文所提近似浮点乘法器应用于高动态范围图像处理,相比现有主流方案,峰值信噪比和结构相似性分别达到83.16 dB 和 99.9989%,取得了显著的提升。相似文献

20.

Design of a coarse-grained reconfigurable architecture with floating-point support and comparative study

Manhwee Jo Dongwook Lee Kyuseung Han Kiyoung Choi 《Integration, the VLSI Journal》2014

With a huge increase in demand for various kinds of compute-intensive applications in electronic systems, researchers have focused on coarse-grained reconfigurable architectures because of their advantages: high performance and flexibility. This paper presents FloRA, a coarse-grained reconfigurable architecture with floating-point support. A two-dimensional array of integer processing elements in FloRA is configured at run-time to perform floating-point operations as well as integer operations. Fabricated using 130 nm process, the total area overhead due to additional hardware for floating-point operations is about 7.4% compared to the previous architecture which does not support floating-point operations. The fabricated chip runs at 125 MHz clock frequency and 1.2 V power supply. Experiments show 11.6× speedup on average compared to ARM9 with a vector-floating-point unit for integer-only benchmark programs as well as programs containing floating-point operations. Compared with other similar approaches including XPP and Butter, the proposed architecture shows much higher performance for integer applications, while maintaining about half the performance of Butter for floating-point applications. 相似文献