期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

付江平张盛兵高德远郭亚鹏《计算机应用研究》2007,24(9)

介绍自主设计的龙腾C2微处理器中浮点运算单元的设计与实现.该处理器与Intel 80486DX4指令系统兼容,支持IEEE 754标准扩展精度的浮点基本函数和超越函数运算.介绍了浮点运算单元的结构,分析了实现超越函数的高精度CORDIC算法的流程,讨论了实现浮点超越函数运算的数据通路和控制通路结构,并给出了仿真结果和精度评估结果.仿真和分析的结果表明,浮点运算单元的设计满足龙腾C2微处理器的设计要求. 相似文献

2.

80位嵌入式超越函数运算器的设计

下载免费PDF全文

李波周端王永海《计算机工程与科学》2004,26(12):52-56

基于移位加的坐标旋转数字计算机算法是用硬件实现超越函数的最简单方法。本文首先介绍了这种算法的工作方式和计算超越函数的具体过程,并设计了一个80位嵌入式超越函数运算器;然后从该处理器的设计构思和系统结构,到处理器内部各单元的设计,进行了比较详尽的阐述;最后给出了对该设计进行软件仿真的结果。相似文献

3.

基于CORDIC的反双曲正切函数的FPGA实现

陈石平李全莫丽兰段吉海《计算机工程与科学》2009,31(5)

双曲函数的应用领域十分广泛。本文首先介绍CORDIC算法双曲系统的基本原理及其计算模式,对CORDIC内核及其处理单元做了详细分析。在迭代算法的基础之上,采用流水线技术,以面积换速度,给出了一种基于流水线的CORDIC来实现反双曲正切函数,具有很高的精度和很快的速度,使设计出的软核能够在精度要求很高的场合中运行。用Verilog HDL对其编程设计和进行功能仿真、时序仿真及下载测试的结果表明,该函数具有很好的实用性。相似文献

4.

基于CORDIC算法的高速正余弦函数实现架构

林丹李平王亿文《自动化信息》2011,(9):44-46

坐标旋转数字计算机算法（Coordinates Rotation Digital Computer （CORDIC） Algorithm）,其硬件结构实现简单,可以在硬件系统中实现包括乘、除、各种三角函数、自然对数和平方根在内的初等函数;针对图像处理对计算速度要求高的特点,本文采用了多级流水线的实现架构,可以明显提高CORDIC电路的工作频率;为了进一步地减少各级流水线的计算时延,电路中采用了运算速度较快的BKA加法器。基于Altera公司的FPGA（EP2C5F256C7）芯片的CORDIC算法架构综合,使其能够工作在188．38MHz的最高时钟频率。仿真结果表明本文提出的CORDIC架构能高速正确地实现CORDIC算法。相似文献

5.

一种超越函数的通用算法研究

姚玥《计算机光盘软件与应用》2013,(7)

随着科技的飞速发展,现如今世界已经步入信息时代,掌握一定的计算机技能是每一个当代人必备的一项生存手段。计算机学习和数学知识紧密联系在一起,我们数学中经常见到的初等函数比如对数函数、指数函数以及三角函数等都叫做超越函数,如何用超越函数来做一些基本简单的计算机算法编程呢?这对于初学计算机编程的人员来讲,是非常有必要学习和掌握的,笔者通过对于数学知识中超越函数的理解和总结,开深入探讨将其应用于计算机的算法研究中,希望,本文的研究能够为广大运用计算机编程和制作算法的工作者和学习者带来些许帮助。相似文献

6.

可变精度超越函数算法设计

郝江伟郭绍忠夏媛媛许瑾晨《计算机科学》2020,47(8):71-79

相似文献

7.

基于申威1621的半精度超越函数设计

曹克乾赵荣彩王磊《计算机应用》2022,(S1):221-225

低精度浮点数常用于深度学习加速,目前申威平台缺乏对低精度浮点数的支持,数学库的设计往往需要结合数据类型与处理器特点定制算法才能发挥出最大优势,旨在为申威1621平台设计一套支持半精度计算的超越函数。通过分析各类浮点数特性,结合申威1621的结构特点提出一种基于回乘取余查表算法。首先,对函数的定义域进行归约,生成精简的数据表;然后将回乘取余后的数值按照sign、exponent、mantissa三部分拆分计算索引;最后,查表返回结果。测试结果表明,使用回乘取余查表算法实现的半精度超越函数,相较于基于多项式近似、移位相加等算法的申威数学库及GLIBC开源数学库,性能分别提升了116%和215%。在精度需求不高的应用中既保证了正确性又大幅度提升了数学函数计算效率。相似文献

8.

智能传感器中神经网络激活函数的实现方案

李宏伟吴庆祥《传感器与微系统》2014,(1):46-48

传感器智能化已经成为一种趋势。为了用现场可编程门阵列(FPGA)芯片与传感器相结合的方法,将人工神经网络应用于传感信号的智能处理,首先要解决应用最广泛的Sigmoid激活函数的FPGA实现问题。据此阐述了以流水线的方式实现激活函数的方法,并论述了这个过程中的2个关键点:一是用协调旋转数字计算机(CORDIC)算法经过多次迭代来逼近指数函数;二是实现了一种改进型的高效除法器,并对仿真结果进行了分析。该方案在实现精度和速度上均满足了神经网络的应用要求,可以应用到传感器智能化中。相似文献

9.

基于扩展收敛域CORDIC的指数变换器设计

何晓华谢建精《计算机仿真》2010,27(7):365-368

在数字信号的研究中,针对提高精度和速度,传统方法不能达到要求.应用指数变换器效果更好.采用CORDIC设计的指数变换器可提高运算效率,易于工程实现.为了降低硬件实现的复杂度和系统资源的消耗,研究了一种基于扩展收敛域CORDIC的指数变换器的设计方案.通过修改迭代序列,有效扩展了指数变换器的收敛域范围,免去了传统CORDIC中复杂的前处理和后处理过程,具有较强的工程实用价值.通过在Matlab上进行仿真和Modelsim硬件描述语言仿真,仿真结果表明扩展收敛域后指数函数的收敛域范围得到了有效的扩大,系统的资源消耗低,验证了该方案的可行性. 相似文献

10.

一种CORDIC算法的FPGA实现 总被引：1，自引：0，他引：1

牛晨晓赵忠聂聪《计算机技术与发展》2011,21(6)

CORDIC算法是实现快速精确的正、余弦函数计算的主要方法,在工程实际中有着广泛应用.在研究正、余弦函数运算的CORDIC算法简单状态机实现和高速全流水处理机实现的基础上,提出了一种单精度浮点数正、余弦函数运算的优化实现方案,并在ALTERA公司的FPGA上实现.结果表明,相比较单精度浮点数正、余弦函数运算的CORDIC算法简单状态机实现,该实现方案不仅计算速度快,而且硬件资源消耗增加少,达到了单精度浮点数正、余弦函数运算硬件实现上速度与资源占用的平衡. 相似文献

11.

参数化可配置IP核浮点运算器的设计与实现

刘竹松陈平华陈璟《电子技术应用》2011,37(4):109-112

将参数化可配置IP核的设计方法引入到浮点运算器设计中,通过设计时提取的可用参数,将浮点运算器设计成为参数化、可配置、可重用的IP核.通过仿真验证了实现参数化IP核浮点运算器的可行性和有效性. 相似文献

12.

M-DSP中高性能浮点乘加器的设计与实现

车文博刘衡竹田甜《计算机应用》2016,36(8):2213-2218

针对高性能M型数字信号处理器（M-DSP）对浮点运算的性能、面积和功耗要求,研究分析了M-DSP总体结构和浮点运算的指令特点,设计和实现了一种高性能低功耗的浮点乘累加器（FMAC）。该乘加器采用单、双精度通路分离的主体结构,分为六级流水站执行,对乘法器、对阶移位等关键模块进行了复用设计,支持双精度和单精度浮点乘法、乘累加、乘累减、单精度点积和复数运算。对所设计的乘加器进行了全面的验证,基于45nm工艺采用Synopsys公司的Design Compiler工具综合所设计的代码,综合结果表明运行频率可达1GHz,单元面积36856μm²;与FT-XDSP中的乘加器相比,面积节省了12.95%,关键路径长度减少了2.17%。相似文献

13.

基于FPGA的可配置浮点向量乘法单元设计实现

黄兆伟王连明《计算机应用研究》2020,37(9):2762-2765,2771

针对目前采用IEEE 754浮点标准设计的FPGA浮点运算器中吞吐率与资源利用率低等问题,提出一种运算精度与运算器数量可配置的并行浮点向量乘法运算单元。通过浮点运算器的指数、尾数位数可配置化设计,提高系统资源利用率,并将流水线技术与并行结构结合,提高数据吞吐率。以EP4CE115型FPGA为测试平台,当配置10组FP14运算器时,系统的逻辑资源占用约为4.2%,峰值吞吐率可达4.5 GFLOPS。结果表明,提出的浮点向量乘法单元有效提高了FPGA资源利用率与运算吞吐率,同时具有高度的可移植性与通用性,适用于FPGA向量乘法运算的加速。相似文献

14.

The SUPRENUM vector floating-point unit

Hubert Kammer 《Parallel Computing》1988,7(3):315-323

The paper describes the implementation of a high-performance 64-bit vector floating-point unit. This implementation consists of a microcontroller, coprocessor interface (for the 68020), DMA controller, various specialised memories, and the Weitek floating-point processors. 相似文献

15.

浮点LMS算法的FPGA实现

朱亮杜勇张长隆韩方景《计算机工程与应用》2007,43(5):90-92

浮点LMS算法的FPGA实现是自适应天线阵工程设计中的关键技术。本文提出了一种在FPGA内实现浮点LMS算法的方法,该方法采用三级流水线操作的方式,兼顾算法的精度和动态范围。仿真结果表明,该方法能有效利用FPGA的逻辑资源,保证运算速度,满足系统的实时性。相似文献

16.

一种基于SRT-8算法的SIMD浮点除法器的设计与实现

邓子椰陈书明彭元喜雷元武《计算机工程与科学》2014,36(5):797-803

在科学计算、数字信号处理、通信和图像处理等应用中,除法运算是常用的基本操作之一。基于SRT 8除法算法,设计一个SIMD结构的IEEE 754标准浮点除法器,在同一硬件平台上能够实现双精度浮点除法和两个并行的单精度浮点除法。通过优化SRT 8迭代除法结构,提出商选择和余数加法的并行处理,并采用商数字存储技术降低迭代除法的计算延时,提高频率。同时,采用复用策略减少硬件资源开销,节省面积。实验表明,在40nm工艺下,本设计综合cell面积为18601.9681 μm2,运行频率可达2.5GHz,相对传统的SRT 8实现关键延迟减少了23.81%。相似文献

17.

浮点反正切函数的FPGA实现 总被引：1，自引：0，他引：1

李全《电子技术应用》2010,36(8)

设计了一种基于CORDIC算法计算浮点反正切函数的的硬件结构,并在Altera公司的FPGA芯片上进行了验证,最后在Nios II处理器系统中以用户自定义指令的形式实现,通过C语言程序验证了浮点反正切模块的正确性。相似文献

18.

图形处理器片段处理单元的设计与实现

田泽张淑张骏许宏杰黎小玉郭蒙《计算机应用》2014,(Z2):357-360

针对图形处理器三维引擎中对图形的后期处理需求,实现片段写入帧缓冲区前的测试、混合、逻辑操作、累积、清除和屏蔽等关键功能。分析并提取了OpenGL核心库中的片段处理相关函数,确定了片段处理单元要实现的功能;合理安排多个片段处理功能的执行顺序,设计了基于流水线的片段处理单元结构;采用Verilog HDL对电路进行描述,采用 Cadence NC-Verilog 仿真工具进行虚拟验证,采用 Xilinx 的 ISE 工具进行综合,并在 Xilinx Virtex6 XC6VLX760 FPGA上进行原型验证,电路工作频率可以达到180 MHz,测试功能正确。在SMIC 65 nm CMOS工艺下,采用Synopsys Design-Compiler对设计进行综合,电路工作频率达到300 MHz,满足设计需求。相似文献