首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 213 毫秒
1.
针对双精度浮点除法通常运算过程复杂、延时较大这一问题,提出一种基于Goldschmidt算法设计支持IEEE-754标准的高性能双精度浮点除法器方法。首先,分析Goldschmidt算法运算除法的过程以及迭代运算产生的误差;然后,提出了控制误差的方法;其次,采用了较节约面积的双查找表法确定迭代初值,迭代单元采用并行乘法器结构以提高迭代速度;最后,合理划分流水站,控制迭代过程使浮点除法可以流水执行,从而进一步提高除法器运算速率。实验结果表明,在40 nm工艺下,双精度浮点除法器采用14位迭代初值流水结构,其综合cell面积为84902.2618 μm2,运行频率可达2.2 GHz;相比采用8位迭代初值流水结构运算速度提高了32.73%,面积增加了5.05%;计算一条双精度浮点除法的延迟为12个时钟周期,流水执行时,单条除法平均延迟为3个时钟周期,与其他处理器中基于SRT算法实现的双精度浮点除法器相比,数据吞吐率提高了3~7倍;与其他处理器中基于Goldschmidt算法实现的双精度浮点除法器相比,数据吞吐率提高了2~3倍。  相似文献   

2.
为满足现代数字信号处理中大量数据的运算需求,利用ARM946和Xilinx公司的现场可编程门阵列芯片逻辑资源和IP库,设计专门用于浮点复数向量运算的64位协处理器,对相关浮点运算进行优化,并在硬件仿真平台上进行测试。结果表明,该协处理器可使浮点复数向量运算性能得到大幅提高。  相似文献   

3.
在分析了单精度倒数算法在图形处理器中存在的不足的基础上,设计了一阶泰勒级数单精度倒数算法。与传统算法相比,在资源消耗、运算周期和效率方面得到了有效改善。本浮点倒数算法的主要逻辑模块由一个24位整数加法器、一个ROM和一个24位乘法器组成。将在[1,2)范围的尾数平均分为4 096个区间,将每个区间起始点倒数平方放入查找表,并对每个区间采用一阶泰勒级数计算倒数值。仿真结果表明:仿真的结果与理论结果一致,满足单精度浮点数的精度要求。目前此算法已经成功流片,应用于国产第三代图形处理器JM7200。  相似文献   

4.
基于Microblaze处理器的浮点内积运算设计   总被引:1,自引:0,他引:1  
浮点内积运算在信号处理与图像处理中有着广泛的应用,本文利用软核处理器灵活性和可扩展性的特点,介绍了基于Microblaze处理器的浮点内积运算结构,设计采用IEEE-754双精度浮点数,通过对DSA电路改进设计出了适合于内积运算的累加电路结构。通过EDK设计平台,在SOPC系统中把内积运算单元通过FSL总线挂载到Microblaze软核处理器上,实现了硬件单元的调用。  相似文献   

5.
高效结构的多输入浮点乘法器在FPGA上的实现   总被引:1,自引:0,他引:1  
传统的多输入浮点乘法运算是通过级联二输入浮点乘法器来实现的,这种结构不可避免地使运算时延和所需逻辑资源成倍增加,从而难以满足高速数字信号处理的需求。本文提出了一种适合于在FPGA上实现的浮点数据格式和可以在三级流水线内完成的一种高效的多输入浮点乘法器结构,并给出了在Xilinx公司Virtex系列芯片上的测试数据。  相似文献   

6.
黄兆伟  王连明 《计算机应用研究》2020,37(9):2762-2765,2771
针对目前采用IEEE 754浮点标准设计的FPGA浮点运算器中吞吐率与资源利用率低等问题,提出一种运算精度与运算器数量可配置的并行浮点向量乘法运算单元。通过浮点运算器的指数、尾数位数可配置化设计,提高系统资源利用率,并将流水线技术与并行结构结合,提高数据吞吐率。以EP4CE115型FPGA为测试平台,当配置10组FP14运算器时,系统的逻辑资源占用约为4.2%,峰值吞吐率可达4.5 GFLOPS。结果表明,提出的浮点向量乘法单元有效提高了FPGA资源利用率与运算吞吐率,同时具有高度的可移植性与通用性,适用于FPGA向量乘法运算的加速。  相似文献   

7.
高精度、高性能浮点运算部件是高性能微处理器设计的重要部分。通过对传统双精度浮点乘加运算算法的研究,结合四倍精度浮点数据格式特点,设计并实现一种高性能的四倍精度浮点乘加器(QPFMA),该乘加器支持多种浮点运算,运算延迟为7拍,全流水结构。采用双路加法器改进算法结构,优化头零预测和规格化移位逻辑,减小运算延迟和硬件开销。通过参数化设计验证方法,实现高效的正确性验证。逻辑综合结果表明,基于65 nm工艺,该QPFMA频率可达1.2 GHz,比现有的QPFMA设计运算延迟减少3拍,频率提高约11.63%。  相似文献   

8.
本文我们描述了一个符号IEEE954单精度浮点标准的加法器。这个浮点加法器的设计基于TSMC2.5V 0.25um CMOS工艺,它将用于200MHz的专用DSP处理器,为了在高速运算的同时降低功耗,本文在采用了并行运算提高速度的同时,通过控制逻辑模块关闭不必要的运算模块的操作来减少整个电路功耗,另外,在电路设计中大量使用传输管逻辑,提高速度并降低整个电路的面积和功耗,加法器的运算时间是3.986ns。  相似文献   

9.
彭元喜  杨洪杰  谢刚 《计算机应用》2010,30(11):3121-3125
为了满足高性能X-DSP浮点乘法器的性能、功耗、面积要求,研究分析了X型DSP总体结构和浮点乘法器指令特点,采用Booth 2编码算法和4∶2压缩树形结构,使用4级流水线结构设计实现了一款高性能低功耗浮点乘法器。使用逻辑综合工具Design Compiler,采用第三方公司0.13μm CMOS工艺库,对所设计的乘法器进行了综合,其结果为工作频率500MHz,面积67529.36μm2,功耗22.3424mW。  相似文献   

10.
8087数值数据处理器(简称NDP)是一种专门为高效率地实现算术运算而设计的。它能对二进制整数,十进制数以及浮点实数进行操作,其数据长度为2~10字节范围内。指令系统不仅包含有各种不同的加、减、乘、除运算,而且还提供了  相似文献   

11.
浮点协处理器在嵌入式组合导航计算机中的应用研究   总被引:1,自引:1,他引:0  
为了提高导航计算机的浮点运算性能,满足组合导航系统实时性的要求,在基于FPGA的嵌入式导航计算机中,利用新型FPGA的片内逻辑资源,设计出专门用于浮点运算的协处理器单元,实现了组合导航浮点运算的硬件执行。为了使浮点运算协处理器的性能充分发挥,对组合导航软件的代码进行了优化。实现了嵌入式导航计算机硬件和软件性能同步提高。使用真实导航数据进行了测试,结果表明,系统的浮点运算性能大大提升,达到了预期的实时性能改善效果。  相似文献   

12.
一种高效结构的多输入浮点加法器在FPGA上的实现   总被引:3,自引:1,他引:3  
传统的多输入浮点加法运算是通过级联二输入浮点加法器来实现的,这种结构不可避免地使运算时延和所需逻辑资源成倍增加,从而越来越难以满足需要进行高速数字信号处理的需求。本文提出了一种适合在FPGA上实现的浮点数据格式和可以在四级流水线内完成的一种高效多输入浮点加法器结构,并给出了在Xilinx公司Virtex系列芯片上的测试
试数据。  相似文献   

13.
在嵌入式应用中,为了满足小面积低功耗的设计需求,设计了一种支持RISC-V指令集架构的微处理器,系统采用2级流水结构,实现了RV32IMAC指令集。处理器采用AHB总线作为片上互连总线,可方便调用外部IP核进行功能拓展。在VCS环境下验证了该微处理器的逻辑功能,仿真结果表明该微处理器能够正常稳定运行。在面积、功耗和性能等方面与蜂鸟E203处理器以及ARM Cortex-M系列处理器进行了对比,该设计比蜂鸟E203处理器面积小了6%,功耗和性能上与Cortex-M0处理器相当。分析结果表明该处理器较适合在小面积、低功耗的嵌入式应用领域进行开发。  相似文献   

14.
基于DSP和FPGA的组合导航系统设计   总被引:3,自引:0,他引:3  
为满足组合导航系统数据计算量大、实时性高,对系统微型化、高精度的要求,设计了基于TI浮点数字信号处理器TMS320C6713B和CycloneⅡ系列EP2C20Q240C8 FPGA的组合导航系统.DSP处理速度快.浮点数据处理能力强,主要完成导航数据处理任务;FPGA控制能力强,设计灵活,用作主控制器.详述了系统的硬件组成和工作原理,DSP与FPGA之间的数据交换通过双端口RAM实现.试验结果表明,该系统完全满足组合导航系统的要求.  相似文献   

15.
可配置高速高精度FFT的硬件实现   总被引:2,自引:1,他引:2  
邓波  戎蒙恬  汤晓峰 《计算机工程》2006,32(17):254-256
提出了一种高速、可变长点、混合基8/4/2、浮点的FFT硬件模块化设计方案。设计方案中,改进了基8/4/2混合基算法,能够处理可变长2N(3≤N≤12)采样点;提出了一种乒乓RAM结构和数据地址的组织,可以同时存、取和处理16个数据,保证处理实时性;采用了超长流水线浮点执行单元,提高了处理结果的精度。目前,该设计已在FPGA上实现,采样点长4k时处理能力为250MSPS。采用0.18μm CMOS工艺综合,4k点时处理能力可达到800MSPS。  相似文献   

16.
This article presents the hardware implementation of the floating-point processor (FPP) to develop the radial basis function (RBF) neural network for the general purpose of pattern recognition and nonlinear control. The floating-point processor is designed on a field programmable gate array (FPGA) chip to execute nonlinear functions required in the parallel calculation of the back-propagation algorithm. Internal weights of the RBF network are updated by the online learning back-propagation algorithm. The on-line learning process of the RBF chip is compared numerically with the results of the RBF neural network learning process written in the MATLAB program. The performance of the designed RBF neural chip is tested for the real-time pattern classification of the XOR logic. Performances are evaluated by comparing results from the MATLAB through extensive experimental studies.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号