首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
介绍自主设计的龙腾C2微处理器中浮点运算单元的设计与实现.该处理器与Intel 80486DX4指令系统兼容,支持IEEE 754标准扩展精度的浮点基本函数和超越函数运算.介绍了浮点运算单元的结构,分析了实现超越函数的高精度CORDIC算法的流程,讨论了实现浮点超越函数运算的数据通路和控制通路结构,并给出了仿真结果和精度评估结果.仿真和分析的结果表明,浮点运算单元的设计满足龙腾C2微处理器的设计要求.  相似文献   

2.
基于移位加的坐标旋转数字计算机算法是用硬件实现超越函数的最简单方法。本文首先介绍了这种算法的工作方式和计算超越函数的具体过程,并设计了一个80位嵌入式超越函数运算器;然后从该处理器的设计构思和系统结构,到处理器内部各单元的设计,进行了比较详尽的阐述;最后给出了对该设计进行软件仿真的结果。  相似文献   

3.
双曲函数的应用领域十分广泛。本文首先介绍CORDIC算法双曲系统的基本原理及其计算模式,对CORDIC内核及其处理单元做了详细分析。在迭代算法的基础之上,采用流水线技术,以面积换速度,给出了一种基于流水线的CORDIC来实现反双曲正切函数,具有很高的精度和很快的速度,使设计出的软核能够在精度要求很高的场合中运行。用Verilog HDL对其编程设计和进行功能仿真、时序仿真及下载测试的结果表明,该函数具有很好的实用性。  相似文献   

4.
坐标旋转数字计算机算法(Coordinates Rotation Digital Computer (CORDIC) Algorithm),其硬件结构实现简单,可以在硬件系统中实现包括乘、除、各种三角函数、自然对数和平方根在内的初等函数;针对图像处理对计算速度要求高的特点,本文采用了多级流水线的实现架构,可以明显提高CORDIC电路的工作频率;为了进一步地减少各级流水线的计算时延,电路中采用了运算速度较快的BKA加法器。基于Altera公司的FPGA(EP2C5F256C7)芯片的CORDIC算法架构综合,使其能够工作在188.38MHz的最高时钟频率。仿真结果表明本文提出的CORDIC架构能高速正确地实现CORDIC算法。  相似文献   

5.
随着科技的飞速发展,现如今世界已经步入信息时代,掌握一定的计算机技能是每一个当代人必备的一项生存手段。计算机学习和数学知识紧密联系在一起,我们数学中经常见到的初等函数比如对数函数、指数函数以及三角函数等都叫做超越函数,如何用超越函数来做一些基本简单的计算机算法编程呢?这对于初学计算机编程的人员来讲,是非常有必要学习和掌握的,笔者通过对于数学知识中超越函数的理解和总结,开深入探讨将其应用于计算机的算法研究中,希望,本文的研究能够为广大运用计算机编程和制作算法的工作者和学习者带来些许帮助。  相似文献   

6.
7.
低精度浮点数常用于深度学习加速,目前申威平台缺乏对低精度浮点数的支持,数学库的设计往往需要结合数据类型与处理器特点定制算法才能发挥出最大优势,旨在为申威1621平台设计一套支持半精度计算的超越函数。通过分析各类浮点数特性,结合申威1621的结构特点提出一种基于回乘取余查表算法。首先,对函数的定义域进行归约,生成精简的数据表;然后将回乘取余后的数值按照sign、exponent、mantissa三部分拆分计算索引;最后,查表返回结果。测试结果表明,使用回乘取余查表算法实现的半精度超越函数,相较于基于多项式近似、移位相加等算法的申威数学库及GLIBC开源数学库,性能分别提升了116%和215%。在精度需求不高的应用中既保证了正确性又大幅度提升了数学函数计算效率。  相似文献   

8.
传感器智能化已经成为一种趋势。为了用现场可编程门阵列(FPGA)芯片与传感器相结合的方法,将人工神经网络应用于传感信号的智能处理,首先要解决应用最广泛的Sigmoid激活函数的FPGA实现问题。据此阐述了以流水线的方式实现激活函数的方法,并论述了这个过程中的2个关键点:一是用协调旋转数字计算机(CORDIC)算法经过多次迭代来逼近指数函数;二是实现了一种改进型的高效除法器,并对仿真结果进行了分析。该方案在实现精度和速度上均满足了神经网络的应用要求,可以应用到传感器智能化中。  相似文献   

9.
在数字信号的研究中,针对提高精度和速度,传统方法不能达到要求.应用指数变换器效果更好.采用CORDIC设计的指数变换器可提高运算效率,易于工程实现.为了降低硬件实现的复杂度和系统资源的消耗,研究了一种基于扩展收敛域CORDIC的指数变换器的设计方案.通过修改迭代序列,有效扩展了指数变换器的收敛域范围,免去了传统CORDIC中复杂的前处理和后处理过程,具有较强的工程实用价值.通过在Matlab上进行仿真和Modelsim硬件描述语言仿真,仿真结果表明扩展收敛域后指数函数的收敛域范围得到了有效的扩大,系统的资源消耗低,验证了该方案的可行性.  相似文献   

10.
一种CORDIC算法的FPGA实现   总被引:1,自引:0,他引:1  
CORDIC算法是实现快速精确的正、余弦函数计算的主要方法,在工程实际中有着广泛应用.在研究正、余弦函数运算的CORDIC算法简单状态机实现和高速全流水处理机实现的基础上,提出了一种单精度浮点数正、余弦函数运算的优化实现方案,并在ALTERA公司的FPGA上实现.结果表明,相比较单精度浮点数正、余弦函数运算的CORDIC算法简单状态机实现,该实现方案不仅计算速度快,而且硬件资源消耗增加少,达到了单精度浮点数正、余弦函数运算硬件实现上速度与资源占用的平衡.  相似文献   

11.
将参数化可配置IP核的设计方法引入到浮点运算器设计中,通过设计时提取的可用参数,将浮点运算器设计成为参数化、可配置、可重用的IP核.通过仿真验证了实现参数化IP核浮点运算器的可行性和有效性.  相似文献   

12.
车文博  刘衡竹  田甜 《计算机应用》2016,36(8):2213-2218
针对高性能M型数字信号处理器(M-DSP)对浮点运算的性能、面积和功耗要求,研究分析了M-DSP总体结构和浮点运算的指令特点,设计和实现了一种高性能低功耗的浮点乘累加器(FMAC)。该乘加器采用单、双精度通路分离的主体结构,分为六级流水站执行,对乘法器、对阶移位等关键模块进行了复用设计,支持双精度和单精度浮点乘法、乘累加、乘累减、单精度点积和复数运算。对所设计的乘加器进行了全面的验证,基于45nm工艺采用Synopsys公司的Design Compiler工具综合所设计的代码,综合结果表明运行频率可达1GHz,单元面积36856μm2;与FT-XDSP中的乘加器相比,面积节省了12.95%,关键路径长度减少了2.17%。  相似文献   

13.
黄兆伟  王连明 《计算机应用研究》2020,37(9):2762-2765,2771
针对目前采用IEEE 754浮点标准设计的FPGA浮点运算器中吞吐率与资源利用率低等问题,提出一种运算精度与运算器数量可配置的并行浮点向量乘法运算单元。通过浮点运算器的指数、尾数位数可配置化设计,提高系统资源利用率,并将流水线技术与并行结构结合,提高数据吞吐率。以EP4CE115型FPGA为测试平台,当配置10组FP14运算器时,系统的逻辑资源占用约为4.2%,峰值吞吐率可达4.5 GFLOPS。结果表明,提出的浮点向量乘法单元有效提高了FPGA资源利用率与运算吞吐率,同时具有高度的可移植性与通用性,适用于FPGA向量乘法运算的加速。  相似文献   

14.
The paper describes the implementation of a high-performance 64-bit vector floating-point unit. This implementation consists of a microcontroller, coprocessor interface (for the 68020), DMA controller, various specialised memories, and the Weitek floating-point processors.  相似文献   

15.
浮点LMS算法的FPGA实现是自适应天线阵工程设计中的关键技术。本文提出了一种在FPGA内实现浮点LMS算法的方法,该方法采用三级流水线操作的方式,兼顾算法的精度和动态范围。仿真结果表明,该方法能有效利用FPGA的逻辑资源,保证运算速度,满足系统的实时性。  相似文献   

16.
在科学计算、数字信号处理、通信和图像处理等应用中,除法运算是常用的基本操作之一。基于SRT 8除法算法,设计一个SIMD结构的IEEE 754标准浮点除法器,在同一硬件平台上能够实现双精度浮点除法和两个并行的单精度浮点除法。通过优化SRT 8迭代除法结构,提出商选择和余数加法的并行处理,并采用商数字存储技术降低迭代除法的计算延时,提高频率。同时,采用复用策略减少硬件资源开销,节省面积。实验表明,在40nm工艺下,本设计综合cell面积为18601.9681 μm2,运行频率可达2.5GHz,相对传统的SRT 8实现关键延迟减少了23.81%。  相似文献   

17.
浮点反正切函数的FPGA实现   总被引:1,自引:0,他引:1  
设计了一种基于CORDIC算法计算浮点反正切函数的的硬件结构,并在Altera公司的FPGA芯片上进行了验证,最后在Nios II处理器系统中以用户自定义指令的形式实现,通过C语言程序验证了浮点反正切模块的正确性。  相似文献   

18.
针对图形处理器三维引擎中对图形的后期处理需求,实现片段写入帧缓冲区前的测试、混合、逻辑操作、累积、清除和屏蔽等关键功能。分析并提取了OpenGL核心库中的片段处理相关函数,确定了片段处理单元要实现的功能;合理安排多个片段处理功能的执行顺序,设计了基于流水线的片段处理单元结构;采用Verilog HDL对电路进行描述,采用 Cadence NC-Verilog 仿真工具进行虚拟验证,采用 Xilinx 的 ISE 工具进行综合,并在 Xilinx Virtex6 XC6VLX760 FPGA上进行原型验证,电路工作频率可以达到180 MHz,测试功能正确。在SMIC 65 nm CMOS工艺下,采用Synopsys Design-Compiler对设计进行综合,电路工作频率达到300 MHz,满足设计需求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号